幸运的是,Python 库中内建了一些隐藏的特性,可以让我们充分利用所有 CPU 核心的能力。通过使用 Python 的 concurrent.futures 模块,我们只需要 3 行代码就可以让一个普通的程序转换成适用于多核处理器并行处理的程序。
标准方法
让我们举一个简单的例子,在单个文件夹中有一个图片数据集,其中有数万张图片。在这里,我们决定使用 1000 张。我们希望在所有图片被传递到深度神经网络之前将其调整为 600×600 像素分辨率的形式。以下是你经常会在 GitHub 上看到的标准 Python 代码:
importglob
importos
importcv2
### Loop through all jpg files in the current folder
### Resize each one to size 600x600
forimage_filename inglob.glob( "*.jpg"):
### Read in the image data
img = cv2.imread(image_filename)
### Resize the image
img = cv2.resize(img, ( 600, 600))
上面的程序遵循你在处理数据脚本时经常看到的简单模式:
1. 首先从需要处理内容的文件(或其他数据)列表开始。
2. 使用