多进程
一、概念
1、进程和线程解释
1.计算机的核心是CPU,它承担了所有的计算任务。它就像一座工厂,时刻在运行。
2.假定工厂的电力有限,一次只能供给一个车间使用。也就是说,一个车间开工的时候,其他车间都必须停工。背后的含义就是,单个CPU一次只能运行一个任务。
3.进程就好比工厂的车间,它代表CPU所能处理的单个任务。任一时刻,CPU总是运行一个进程,其他进程处于非运行状态。
4.一个车间里,可以有很多工人。他们协同完成一个任务。
5.线程就好比车间里的工人。一个进程可以包括多个线程。
6.车间的空间是工人们共享的,比如许多房间是每个工人都可以进出的。这象征一个进程的内存空间是共享的,每个线程都可以使用这些共享内存。
7.可是,每间房间的大小不同,有些房间最多只能容纳一个人,比如厕所。里面有人的时候,其他人就不能进去了。这代表一个线程使用某些共享内存时,其他线程必须等它结束,才能使用这一块内存。
8.一个防止他人进入的简单方法,就是门口加一把锁。先到的人锁上门,后到的人看到上锁,就在门口排队,等锁打开再进去。这就叫互斥锁(Mutual exclusion,缩写 Mutex),防止多个线程同时读写某一块内存区域。
9.还有些房间,可以同时容纳n个人,比如厨房。也就是说,如果人数大于n,多出来的人只能在外面等着。这好比某些内存区域,只能供给固定数目的线程使用。
10.这时的解决方法,就是在门口挂n把钥匙。进去的人就取一把钥匙,出来时再把钥匙挂回原处。后到的人发现钥匙架空了,就知道必须在门口排队等着了。这种做法叫做信号量(Semaphore),用来保证多个线程不会互相冲突。
不难看出,mutex是semaphore的一种特殊情况(n=1时)。也就是说,完全可以用后者替代前者。但是,因为mutex较为简单,且效率高,所以在必须保证资源独占的情况下,还是采用这种设计。
11.操作系统的设计,因此可以归结为三点:
(1)以多进程形式,允许多个任务同时运行;
(2)以多线程形式,允许单个任务分成不同的部分运行;
(3)提供协调机制,一方面防止进程之间和线程之间产生冲突,另一方面允许进程之间和线程之间共享资源。
python中的多线程无法利用多核优势,如果想要充分地使用多核CPU的资源(os.cpu_count()查看),在python中大部分情况需要使用多进程。Python提供了非常好用的多进程包multiprocessing。
2、python multiprocessing
multiprocessing模块用来开启子进程,并在子进程中执行我们定制的任务(比如函数),该模块与多线程模块threading的编程接口类似。
multiprocessing模块的功能众多:支持子进程、通信和共享数据、执行不同形式的同步,提供了Process、Queue、Pipe、Lock等组件。
需要再次强调的一点是:与线程不同,进程没有任何共享状态,进程修改的数据,改动仅限于该进程内。
每当使用multiprocessing创建新的进程,会复制主进程的所有状态和参数。所以此时调用主进程的全局变量是可以的,但是修改之后不会上传会主进程。
Process进程创建时,子进程会将主进程的Process对象完全复制一份。
在新的主进程类里面创建新类的时候,如果要使用全局变量,则需要将主进程一个变量赋值为全局变量绑定地址之后,再将这个主进程的变量赋值给新类,就可以全局使用了。但是如果没有这么做,name就不会得到全局变量。子类修改值不会改到主类上面去。
二、实现方法
1、join后主线程等待子线程结束
def test(name):
time.sleep(3)
print('multiprocessing {name} testing...'.format(name=name))
if __name__=='__main__':
processList = []
for i in range(10):
p = Process(target=test, args=('function'+str(i),))
processList.append(p)
p.start()
for p in processList:
p.join()
2、主进程和父进程的关系
def info(msg):
print(msg)
print('module name : {name}'.format(name=__name__))
print('parent processID : {id}'.format(id=os.getppid()))
print('self processID : {id}'.format(id=os.getpid()))
if __name__=='__main__':
info('main process begin')
time.sleep(3)
p = Process(target=info, args=('abc',))
p.start()
main process begin
module name : __main__
parent processID : 49520
self processID : 49918
abc
module name : __main__
parent processID : 49918
self processID : 49919
由上面运行结果可以见到子进程的父进程是主进程ID
3、重写Process方法
class MyProcess(Process):
def __int__(self):
super(MyProcess, self).__init__()
# Process.__init__(self,)
def run(self):
time.sleep(3)
print('study process, run time : {time}'.format(time=time.ctime()))
if __name__=='__main__':
processList = []
for i in range(10):
p = MyProcess()
p.start()
4、进程daemon
ef info(msg):
time.sleep(1)
print(p.is_alive(),msg,p.pid)
time.sleep(1)
if __name__=='__main__':
processList = []
for i in range(10):
p = Process(target=info, args=(i,))
p.daemon=True
#加上daemon
processList.append(p)
for p in processList:
p.start()
print('main process end')
main process end
Process finished with exit code 0