python什么时候用进程什么时候用线程_[译] Python 的多线程与多进程

最新推荐文章于 2021-05-25 22:06:55 发布

weixin_39551554

最新推荐文章于 2021-05-25 22:06:55 发布

阅读量132

点赞数

文章标签： python什么时候用进程什么时候用线程

Python 的多线程与多进程

初学者的并行编程指南

在参加 Kaggle 的 Understanding the Amazon from Space 比赛时，我试图对自己代码的各个部分进行加速。速度在 Kaggle 比赛中至关重要。高排名常常需要尝试数百种模型结构与超参组合，能在一个持续一分钟的 epoch 中省出 10 秒都是一个巨大的胜利。

让我吃惊的是，数据处理是最大的瓶颈。我用了 Numpy 的矩阵旋转、矩阵翻转、缩放及裁切等操作，在 CPU 上进行运算。Numpy 和 Pytorch 的 DataLoader 在某些情况中使用了并行处理。我同时会运行 3 到 5 个实验，每个实验都各自进行数据处理。但这种处理方式看起来效率不高，我希望知道我是否能用并行处理来加快所有实验的运行速度。

什么是并行处理？

简单来说就是在同一时刻做两件事情，也可以是在不同的 CPU 上分别运行代码，或者说当程序等待外部资源（文件加载、API 调用等）时把“浪费”的 CPU 周期充分利用起来提高效率。

下面的例子是一个“正常”的程序。它会使用单线程，依次进行下载一个 URL 列表的内容。

下面是一个同样的程序，不过使用了 2 个线程。它把 URL 列表分给不同的线程，处理速度几乎翻倍。

如果你对如何绘制以上图表感到好奇，可以参考源码，下面也简单介绍一下：在你函数内部加上一个计时器，并返回函数执行的起始与结束时间

URLS = [url1, url2, url3, ...]

def download(url, base):

start = time.time() - base

resp = urlopen(url)

stop = time.time() - base

return start,stop单线程程序的可视化如下：多次执行你的函数，并将多个开始结束的时间存储下来

results = [download(url, 1) for url in URLS]将 [start, stop] 的结果数组进行转置，绘制柱状图

def visualize_runtimes(results):

start,stop = np.array(results).T

plt.barh(range(len(start)), stop-start, left=start)

plt.grid(axis=’x’)

plt.ylabel("Tasks")

plt.xlabel("Seconds")

多线程的图表生成方式与此类似。Python 的并发库一样可以返回结果数组。

进程 vs 线程

一个进程就是一个程序的实例（比如 Jupyter notebook 或 Python 解释器）。进程启动线程（子进程）来处理一些子任务（比如按键、加载 HTML 页面、保存文件等）。线程存活于进程内部，线程间共享相同的内存空间。

举例：Microsoft Word

当你打开 Word 时，你其实就是创建了一个进程。当你开始打字时，进程启动了一些线程：一个线程专门用于获取键盘输入，一个线程用于显示文本，一个线程用于自动保存文件，还有一个线程用于拼写检查。在启动这些线程之后，Word 就能更好的利用空闲的 CPU 时间（等待键盘输入或文件加载的时间）让你有更高的工作效率。

进程由操作系统创建，以运行程序

一个进程可以包括多个线程

两个进程可以在 Python 程序中同时执行代码

启动与终止进程需要花费更多的时间，因此用进程比用线程的开销更大

由于进程不共享内存空间，因此进程间交换信息比线程间交换信息要慢很多。在 Python 中，用序列化数据结构（如数组）的方法进行信息交换会花费 IO 处理级别的时间。

线程线程是在进程内部的类似迷你进程的东西

不同的线程共享同样的内存空间，可以高效地读写相同的变量

两个线程不能在同一个 Python 程序中执行代码（有解决这个问题的方法*）

CPU vs 核

CPU，或者说处理器，管理着计算机最基本的运算工作。CPU 有一个或着多个核，可以让 CPU 同时执行代码。

如果只有一个核，那么对 CPU 密集型任务（比如循环、运算等）不会有速度的提升。操作系统需要在很小的时间片在不同的任务间来回切换调度。因此，做一些很琐碎的操作（比如下载一些图片）时，多任务处理反而会降低处理性能。这个现象的原因是在启动与维护多个任务时也有性能的开销。

Python 的 GIL 锁问题