进程(process)和线程(thread)是非常抽象的概念, 也是程序员必需掌握的核心知识。多进程和多线程编程对于代码的并发执行,提升代码效率和缩短运行时间至关重要。小编我今天就来尝试下用一文总结下Python多进程和多线程的概念和区别, 并详细介绍如何使用python的multiprocess和threading模块进行多线程和多进程编程。
重要知识点 - 什么是进程(process)和线程(thread)
-
进程是操作系统分配资源的最小单元, 线程是操作系统调度的最小单元。
-
一个应用程序至少包括1个进程,而1个进程包括1个或多个线程,线程的尺度更小。
-
每个进程在执行过程中拥有独立的内存单元,而一个线程的多个线程在执行过程中共享内存。
网上有篇阮一峰的博客曾对进程和线程做出了一个非常浅显的解释,我在这里贴出来方便大家理解。
-
计算机的核心是CPU,它承担了所有的计算任务。它就像一座工厂,时刻在运行。
-
假定工厂的电力有限,一次只能供给一个车间使用。也就是说,一个车间开工的时候,其他车间都必须停工。背后的含义就是,单个CPU一次只能运行一个任务。编者注: 多核的CPU就像有了多个发电厂,使多工厂(多进程)实现可能。
-
进程就好比工厂的车间,它代表CPU所能处理的单个任务。任一时刻,CPU总是运行一个进程,其他进程处于非运行状态。
-
一个车间里,可以有很多工人。他们协同完成一个任务。
-
线程就好比车间里的工人。一个进程可以包括多个线程。
-
车间的空间是工人们共享的,比如许多房间是每个工人都可以进出的。这象征一个进程的内存空间是共享的,每个线程都可以使用这些共享内存。
-
可是,每间房间的大小不同,有些房间最多只能容纳一个人,比如厕所。里面有人的时候,其他人就不能进去了。这代表一个线程使用某些共享内存时,其他线程必须等它结束,才能使用这一块内存。
-
一个防止他人进入的简单方法,就是门口加一把锁。先到的人锁上门,后到的人看到上锁,就在门口排队,等锁打开再进去。这就叫"互斥锁"(Mutual exclusion,缩写 Mutex),防止多个线程同时读写某一块内存区域。
-
还有些房间,可以同时容纳n个人,比如厨房。也就是说,如果人数大于n,多出来的人只能在外面等着。这好比某些内存区域,只能供给固定数目的线程使用。
-
这时的解决方法,就是在门口挂n把钥匙。进去的人就取一把钥匙,出来时再把钥匙挂回原处。后到的人发现钥匙架空了,就知道必须在门口排队等着了。这种做法叫做"信号量"(Semaphore),用来保证多个线程不会互相冲突。
-
不难看出,mutex是semaphore的一种特殊情况(n=1时)。也就是说,完全可以用后者替代前者。但是,因为mutex较为简单,且效率高,所以在必须保证资源独占的情况下,还是采用这种设计。
原文地址见
-
http://www.ruanyifeng.com/blog/2013/04/processes_and_threads.html
Python的多进程编程与multiprocess模块
python的多进程编程主要依靠multiprocess模块。我们先对比两段代码,看看多进程编程的优势。我们模拟了一个非常耗时的任务,计算8的20次方,为了使这个任务显得更耗时,我们还让它sleep 2秒。第一段代码是单进程计算(代码如下所示),我们按顺序执行代码,重复计算2次,并打印出总共耗时。
import time import os def long_time_task(): print('当前进程: {}'.format(os.getpid())) time.sleep(2) print("结果: {}".format(8 ** 20)) if __name__ == "__main__": print('当前母进程: {}'.format(os.getpid())) start = time.time() for i in range(2): long_time_task() end = time.time() print("用时{}秒".format((end-start)))
输出结果如下,总共耗时4秒,至始至终只有一个进程14236。看来电脑计算8的20次方基本不费时。
当前母进程: 14236 当前进程: 14236 结果: 1152921504606846976 当前进程: 14236 结果: 1152921504606846976 用时4.01080060005188秒
第2段代码是多进程计算代码。我们利用multiprocess模块的Process方法创建了两个新的进程p1和p2来进行并行计算。Process方法接收两个参数, 第一个是target,一般指向函数名,第二个时args,需要向函数传递的参数。对于创建的新进程,调用start()方法即可让其开始。我们可以使用os.getpid()打印出当前进程的名字。
from multiprocessing import Process import os import time def long_time_