Python 如何使用 multiprocessing 模块创建进程池

chusheng1840

于 2024-10-07 10:33:54 发布

阅读量252

点赞数 1

分类专栏： Python 教程文章标签： python matplotlib 信息可视化

本文链接：https://blog.csdn.net/chusheng1840/article/details/142736660

版权

Python 教程专栏收录该内容

31 篇文章 1 订阅

订阅专栏

Python 如何使用 `multiprocessing` 模块创建进程池

一、简介

在现代计算中，提升程序性能的一个关键方法是并行处理，尤其是当处理大量数据或计算密集型任务时，单线程可能不够高效。Python 提供了多个模块来支持并行计算，其中最常用的就是 multiprocessing 模块。它允许我们在多个处理器上同时运行代码，通过多个进程同时处理任务，极大地提高了效率。

本文将介绍如何使用 Python 中的 multiprocessing 模块，特别是 进程池 的概念。我们会讲解如何创建进程池并在其上分配任务，通过代码示例帮助你轻松理解这一重要技术。

在这里插入图片描述

二、进程池简介

2.1 什么是进程池？

进程池（Process Pool） 是指通过预先创建的一组进程来并发执行任务。通常情况下，系统的进程创建和销毁是非常耗时的，所以使用进程池可以避免频繁的创建和销毁开销。我们可以将任务提交给进程池，让它们分配给预先启动的进程进行处理。

进程池最常用于：

大量任务需要并行执行时。
避免频繁的进程创建和销毁。
有限的系统资源，例如 CPU 核心数有限时，通过控制池的大小来限制并发进程数。

2.2 为什么使用进程池？

在 Python 中，由于 GIL（Global Interpreter Lock，全局解释器锁） 的存在，线程并发无法在 CPU 密集型任务中充分发挥多核优势。multiprocessing 模块通过多进程方式绕过 GIL 限制，使得程序能够充分利用多核 CPU 的优势。相比于手动创建和管理多个进程，使用进程池能让我们更轻松地管理并发任务。

进程池的优点包括：

自动管理多个进程的创建和销毁。
可以方便地并行执行多个任务。
通过池大小控制并发的进程数量，避免资源过度占用。

三、使用 `multiprocessing` 模块的基础知识

在开始使用进程池之前，了解 Python 中 multiprocessing 模块的基本概念很重要。

3.1 创建和启动进程

在 multiprocessing 模块中，我们可以通过 Process 类创建和启动进程。简单示例如下：

import multiprocessing
import time

def worker(num):
    """ 工作函数，执行一些任务 """
    print(f"Worker {num} is starting")
    time.sleep(2)  # 模拟工作
    print(f"Worker {num} is done")

if __name__ == '__main__':
    processes = []
    for i in range(5):
        p = multiprocessing.Process(target=worker, args=(i,))
        processes.append(p)
        p.start()

    for p in processes:
        p.join()  # 等待所有进程完成

这个示例演示了如何创建多个进程并并行执行任务，但当任务数很多时，手动管理这些进程就显得复杂了。这时，进程池就派上了用场。

四、创建进程池并分配任务

4.1 `Pool` 类的基本用法

multiprocessing 模块中的 Pool 类提供了一种方便的方式来创建进程池并分配任务。我们可以将多个任务提交给进程池，由进程池中的多个进程同时处理。

以下是使用 Pool 创建进程池并执行任务的基本示例：

import multiprocessing
import time

def worker(num):
    """ 工作函数，执行任务 """
    print(f"Worker {num} is starting")
    time.sleep(2)
    print(f"Worker {num} is done")
    return num * 2  # 返回计算结果

if __name__ == '__main__':
    # 创建包含 4 个进程的进程池
    with multiprocessing.Pool(processes=4) as pool:
        results = pool.map(worker, range(10))

    print(f"Results: {results}")

4.2 `Pool.map()` 方法

在上述代码中，我们使用了 Pool.map() 方法。它的作用类似于 Python 内置的 map() 函数，能够将一个可迭代对象的每个元素传递给目标函数，并将结果以列表形式返回。Pool.map() 会自动将任务分配给进程池中的多个进程并行处理。

例如：

range(10) 生成了 10 个任务，每个任务调用一次 worker 函数。
由于进程池中有 4 个进程，所以它会一次并行执行 4 个任务，直到所有任务完成。

4.3 其他常用方法

除了 map() 方法，Pool 类还有其他一些常用的方法：

apply()：同步执行一个函数，直到该函数执行完毕后，才能继续执行主进程的代码。
```
result = pool.apply(worker, args=(5,))
```
apply_async()：异步执行一个函数，主进程不会等待该函数执行完毕，可以继续执行其他代码。适合用于并行处理单个任务。
```
result = pool.apply_async(worker, args=(5,))
result.get()  # 获取返回值
```

starmap()：类似 map()，但它允许传递多个参数给目标函数。

def worker(a, b):
    return a + b

results = pool.starmap(worker, [(1, 2), (3, 4), (5, 6)])

4.4 进程池大小的设置

在创建进程池时，我们可以通过 processes 参数来设置进程池的大小。通常，进程池大小与系统的 CPU 核心数有关。你可以通过 multiprocessing.cpu_count() 方法获取当前系统的 CPU 核心数，然后根据需要设置进程池的大小。

import multiprocessing

# 获取系统 CPU 核心数
cpu_count = multiprocessing.cpu_count()

# 创建进程池，进程数与 CPU 核心数相同
pool = multiprocessing.Pool(processes=cpu_count)

将进程池大小设置为与 CPU 核心数相同是一个常见的选择，因为这可以充分利用系统资源。

五、进程池的高级用法

5.1 异步任务处理

在实际场景中，某些任务可能会耗时较长。如果我们不希望等待这些任务完成再执行其他代码，可以使用异步任务处理方法，如 apply_async()。它允许我们在后台执行任务，而主进程可以继续执行其他代码，任务完成后我们可以通过 result.get() 获取结果。

import multiprocessing
import time

def worker(num):
    time.sleep(2)
    return num * 2

if __name__ == '__main__':
    with multiprocessing.Pool(processes=4) as pool:
        results = [pool.apply_async(worker, args=(i,)) for i in range(10)]

        # 执行其他操作
        print("主进程继续运行")

        # 获取异步任务结果
        results = [r.get() for r in results]
        print(f"Results: {results}")

在这个例子中，我们使用 apply_async() 异步执行任务，而主进程在等待任务完成之前可以执行其他操作。最终我们通过 get() 方法获取每个任务的结果。

5.2 异常处理

在并发编程中，处理异常是非常重要的。如果某个进程发生异常，我们需要确保能够捕捉到这些异常，并做出相应的处理。apply_async() 提供了 error_callback 参数，可以用于捕捉异步任务中的异常。

def worker(num):
    if num == 3:
        raise ValueError("模拟错误")
    return num * 2

def handle_error(e):
    print(f"捕获异常: {e}")

if __name__ == '__main__':
    with multiprocessing.Pool(processes=4) as pool:
        results = [pool.apply_async(worker, args=(i,), error_callback=handle_error) for i in range(10)]
        
        for result in results:
            try:
                print(result.get())
            except Exception as e:
                print(f"主进程捕获异常: {e}")

在这个例子中，如果某个任务抛出了异常，error_callback 函数会捕捉到，并进行处理。

六、实际应用场景

6.1 CPU 密集型任务

多进程并行处理非常适合处理 CPU 密集型任务，如图像处理、大规模数据运算等。在这些任务中，计算量非常大，多个进程可以同时利用系统的多个 CPU 核心，显著缩短处理时间。

def cpu_intensive_task(n):
    total = 0
    for i in range(10**6):
        total +=

 i * n
    return total

if __name__ == '__main__':
    with multiprocessing.Pool(processes=4) as pool:
        results = pool.map(cpu_intensive_task, range(10))
        print(results)