python多进程

最新推荐文章于 2024-07-23 14:36:35 发布

CV小蜗牛

最新推荐文章于 2024-07-23 14:36:35 发布

阅读量128

点赞数

分类专栏： Python学习文章标签： python 开发语言后端

本文链接：https://blog.csdn.net/u011331397/article/details/120962359

版权

Python学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

概念

进程就是操作系统中执行的一个程序，操作系统以进程为单位分配存储空间，每个进程都有自己的地址空间、数据栈以及其他用于跟踪进程执行的辅助数据，操作系统管理所有进程的执行，为它们合理的分配资源。进程可以通过fork或spawn的方式来创建新的进程来执行其他的任务，不过新的进程也有自己独立的内存空间，因此必须通过进程间通信机制（IPC，Inter-Process Communication）来实现数据共享，具体的方式包括管道、信号、套接字、共享内存区等。

Python中的多进程

python多进程编程主要依靠multiprocess模块。我们先对比两段代码，看看多进程编程的优势。我们模拟了一个非常耗时的下载任务。第一段代码是单进程计算(代码如下所示)，我们按顺序执行代码，并打印出总共耗时。

from random import randint
from time import time, sleep
import os


def download_task(filename):
    print('当前进程: {}'.format(os.getpid()))
    print('开始下载%s...' % filename)
    time_to_download = randint(5, 10)
    sleep(time_to_download)
    print('%s下载完成! 耗费了%d秒' % (filename, time_to_download))


def main():
    print('当前母进程: {}'.format(os.getpid()))
    start = time()
    download_task('Python从入门到住院.pdf')
    download_task('Peking Hot.avi')
    end = time()
    print('总共耗费了%.2f秒.' % (end - start))


if __name__ == '__main__':
    main()

下面是运行程序得到的一次运行结果。

当前母进程: 15312
当前进程: 15312
开始下载Python从入门到住院.pdf...
Python从入门到住院.pdf下载完成! 耗费了10秒
当前进程: 15312
开始下载Peking Hot.avi...
Peking Hot.avi下载完成! 耗费了9秒
总共耗费了19.03秒.

从上面的例子可以看出，如果程序中的代码只能按顺序一点点的往下执行，那么即使执行两个毫不相关的下载任务，也需要先等待一个文件下载完成后才能开始下一个下载任务，很显然这并不合理也没有效率。接下来我们使用多进程的方式将两个下载任务放到不同的进程中，代码如下所示。

from multiprocessing import Process
from os import getpid
from random import randint
from time import time, sleep


def download_task(filename):
    print('当前进程[%d].' % getpid())
    print('开始下载%s...' % filename)
    time_to_download = randint(5, 10)
    sleep(time_to_download)
    print('%s下载完成! 耗费了%d秒' % (filename, time_to_download))


def main():
    print('当前母进程: {}'.format(getpid()))
    start = time()
    p1 = Process(target=download_task, args=('Python从入门到住院.pdf', ))
    p1.start()
    p2 = Process(target=download_task, args=('Peking Hot.avi', ))
    p2.start()
    p1.join()
    p2.join()
    end = time()
    print('总共耗费了%.2f秒.' % (end - start))


if __name__ == '__main__':
    main()

在上面的代码中，我们通过Process类创建了进程对象，通过target参数我们传入一个函数来表示进程启动后要执行的代码，后面的args是一个元组，它代表了传递给函数的参数。Process对象的start方法用来启动进程，而join方法表示等待进程执行结束。运行上面的代码可以明显发现两个下载任务“同时”启动了，而且程序的执行时间将大大缩短，不再是两个任务的时间总和。你还可以看到尽管我们只创建了两个进程，可实际运行中却包含里1个母进程和2个子进程，下面是程序的一次执行结果。

当前母进程: 19776
当前进程[19772].
开始下载Python从入门到住院.pdf...
当前进程[1816].
开始下载Peking Hot.avi...
Peking Hot.avi下载完成! 耗费了5秒
Python从入门到住院.pdf下载完成! 耗费了6秒
总共耗费了8.42秒.

注意事项:

新创建的进程与进程的切换都是要耗资源的，所以平时工作中进程数不能开太大。
同时可以运行的进程数一般受制于CPU的核数。
除了使用Process方法，我们还可以使用Pool类创建多进程。

利用multiprocess模块的Pool类创建多进程

很多时候系统都需要创建多个进程以提高CPU的利用率，当数量较少时，可以手动生成一个个Process实例。当进程数量很多时，或许可以利用循环，但是这需要程序员手动管理系统中并发进程的数量，有时会很麻烦。这时进程池Pool就可以发挥其功效了。可以通过传递参数限制并发进程的数量，默认值为CPU的核数。
Pool类可以提供指定数量的进程供用户调用，当有新的请求提交到Pool中时，如果进程池还没有满，就会创建一个新的进程来执行请求。如果池满，请求就会告知先等待，直到池中有进程结束，才会创建新的进程来执行这些请求。
下面介绍一下multiprocessing 模块下的Pool类的几个方法：
1.apply_async
函数原型：apply_async(func[, args=()[, kwds={}[, callback=None]]])
其作用是向进程池提交需要执行的函数及参数，各个进程采用非阻塞（异步）的调用方式，即每个子进程只管运行自己的，不管其它进程是否已经完成。这是默认方式。
2.map()
函数原型：map(func, iterable[, chunksize=None])
Pool类中的map方法，与内置的map函数用法行为基本一致，它会使进程阻塞直到结果返回。注意：虽然第二个参数是一个迭代器，但在实际使用中，必须在整个队列都就绪后，程序才会运行子进程
3.map_async()
函数原型：map_async(func, iterable[, chunksize[, callback]])
与map用法一致，但是它是非阻塞的。其有关事项见apply_async。
4.close()
关闭进程池（pool），使其不在接受新的任务。
5. terminate()
结束工作进程，不在处理未处理的任务。
6.join()
主进程阻塞等待子进程的退出， join方法要在close或terminate之后使用。
下例是一个简单的multiprocessing.Pool类的实例。因为我的CPU是4核的，一次最多可以同时运行4个进程，所以我开启了一个容量为4的进程池。4个进程需要计算5次，你可以想象4个进程并行4次计算任务后，还剩一次计算任务(任务4)没有完成，系统会等待4个进程完成后重新安排一个进程来计算.

from multiprocessing import Pool, cpu_count
from os import getpid
from random import randint
from time import time, sleep


def download_task(filename):
    print('当前进程[%d].' % getpid())
    print('开始下载%s...' % filename)
    time_to_download = randint(5, 10)
    sleep(time_to_download)
    print('%s下载完成! 耗费了%d秒' % (filename, time_to_download))


def main():
    print("CPU内核数:{}".format(cpu_count()))
    print('当前母进程: {}'.format(getpid()))
    start = time()
    p = Pool(4)
    for i in range(5):
        p.apply_async(download_task, args=(i,))
    p.close()
    p.join()
    end = time()
    print('总共耗费了%.2f秒.' % (end - start))


if __name__ == '__main__':
    main()

输出结果如下所示，可见并行计算优势还是很明显的。

CPU内核数:4
当前母进程: 13168
当前进程[17132].
开始下载0...
当前进程[8516].
开始下载1...
当前进程[13640].
开始下载2...
当前进程[9340].
开始下载3...
0下载完成! 耗费了5秒
当前进程[17132].
开始下载4...
2下载完成! 耗费了5秒
1下载完成! 耗费了6秒
3下载完成! 耗费了7秒
4下载完成! 耗费了9秒
总共耗费了17.13秒.

注意事项:

对Pool对象调用join()方法会等待所有子进程执行完毕，调用join()之前必须先调用close()或terminate()方法，让其不再接受新的Process了

CV小蜗牛

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python多进程

概念进程就是操作系统中执行的一个程序，操作系统以进程为单位分配存储空间，每个进程都有自己的地址空间、数据栈以及其他用于跟踪进程执行的辅助数据，操作系统管理所有进程的执行，为它们合理的分配资源。进程可以通过fork或spawn的方式来创建新的进程来执行其他的任务，不过新的进程也有自己独立的内存空间，因此必须通过进程间通信机制（IPC，Inter-Process Communication）来实现数据共享，具体的方式包括管道、信号、套接字、共享内存区等。Python中的多进程python多进程编程主要依靠
复制链接

扫一扫

专栏目录