用于并行进程的 Python 多处理

潮易

于 2024-10-08 08:24:52 发布

阅读量115

点赞数 3

文章标签： python 服务器开发语言

本文链接：https://blog.csdn.net/wangbadan121/article/details/142750415

版权

多处理在Python中可以使用多种库来实现，常见的有`concurrent.futures`、`multiprocessing`和`threading`等。下面我将分别介绍这些库的基本使用方法以及示例代码，并通过一个简单的测试用例来展示其用法。

### 1. `concurrent.futures`

`concurrent.futures`是Python标准库中的一个模块，它提供了异步计算和并行执行任务的接口。它简化了多线程和进程编程，支持的并发类型包括：

- **ThreadPoolExecutor**：使用固定大小的线程池来执行任务。
- **ProcessPoolExecutor**：使用固定大小的进程池来执行任务。

#### 示例代码

```python
from concurrent.futures import ProcessPoolExecutor, asCompleted

def compute_square(n):
return n * n

with ProcessPoolExecutor() as executor:
tasks = [executor.submit(compute_square, i) for i in range(10)] # 提交10个任务到进程池中

for future in AsCompleted(tasks): # 遍历所有已完成的任务
print(f'Result: {future.result()}') # 输出结果
```

#### 测试用例

```python
def test_compute_square():
    with ProcessPoolExecutor() as executor:
        tasks = [executor.submit(compute_square, i) for i in range(10)]
        results = {task.result(): i for task in tasks} # 获取结果并构造字典

for square, number in results.items():
assert square == number * number, f"Expected {number*number}, got {square}"

print("All tests passed!")

test_compute_square()
```

### 2. `multiprocessing`

`multiprocessing`模块提供了更高级的多进程控制功能，包括：

- **Process**：创建并管理一个单独的进程实例。
- **Manager**：提供共享的数据结构来在多进程中同步数据。

#### 示例代码

```python
from multiprocessing import Process, Manager

def print_number(num, q):
q.put(num) # 将结果放入队列

if __name__ == '__main__':
manager = Manager() # 创建一个Manager实例来管理共享数据
queue = manager.Queue() # 创建一个共享的队列

    processes = [Process(target=print_number, args=(i, queue)) for i in range(10)]
    for p in processes:
        p.start()
    for p in processes:
        p.join()

while not queue.empty(): # 遍历队列并打印所有结果
print(queue.get())
```

### 3. `threading`

虽然`threading`模块直接提供了线程控制，但它不如`multiprocessing`那样易于使用和管理。但对于简单的多线程应用，它仍然是一个不错的选择。

### 人工智能大模型应用

如果要利用Python并行处理任务，且希望充分利用AI大模型的计算能力（如GPU或TPU），可以考虑结合使用多进程和多GPU/TPU的框架，例如`Ray`、`Horovod`或`TensorFlow`与`XLA`配合。

#### 应用场景示例

假设我们正在开发一个计算机视觉项目，需要在一个包含多个GPU的大型计算集群上运行大量的图像处理任务。我们可以使用`multiprocessing`创建进程池来管理这些任务，每个进程池可以负责分配给特定GPU的任务，利用CUDA的并行计算能力加速处理速度。

通过这种方式，我们可以充分利用多核CPU和多个GPU/TPU的优势，提高计算效率。