Python 上的多线程和多进程使用

Python 上的多线程和多进程使用

一、进程和线程

进程是操作系统进行资源分配的最小单元,资源包括CPU、内存、磁盘等IO设备等等,而线程是CPU调度的基本单位。举个简单的例子来帮助理解:我们电脑上同时运行的浏览器和视频播放器是两个不同的进程,进程可能包含多个子任务,这些子任务就是线程,比如视频播放器在播放视频时要同时显示图像、播放声音、显示字幕,这就是三个线程。

1、多线程
操作系统通过给不同的线程分配时间片(CPU运行时长)来调度线程,当CPU执行完一个线程的时间片后就会快速切换到下一个线程,时间片很短而且切换切速度很快以至于用户根本察觉不到。早期的计算机是单核单线程的,多个线程根据分配的时间片轮流被CPU执行,如今绝大多数计算机的CPU都是多核的,多个线程在操作系统的调度下能够被多个CPU并发执行,程序的执行速度和CPU的利用效率大大提升。绝大多数主流的编程语言都能很好地支持多线程,然而python由于GIL锁无法实现真正的多线程。
GIL是什么呢?仍然用篮球比赛的例子来帮助理解:把篮球场看作是CPU,一场篮球比赛看作是一个线程,如果只有一个篮球场,多场比赛要排队进行,就是一个简单的单核多线程的程序;如果有多块篮球场,多场比赛同时进行,就是一个简单的多核多线程的程序。然而python有着特别的规定:每场比赛必须要在裁判的监督之下才允许进行,而裁判只有一个。这样不管你有几块篮球场,同一时间只允许有一个场地进行比赛,其它场地都将被闲置,其它比赛都只能等待。
既然不能实现真正的多线程,python为什么能在20年的时间里发展为全世界排名前三(根据2018年12月10日TIBOE编程语言排行)的编程语言呢?其实python有很多方法能解决这一问题,比如使用多进程、C语言扩展、ctypes。

2、多进程
每个进程都包含至少一个线程:主线程,每个主线程可以开启多个子线程,由于GIL锁机制的存在,每个进程里的若干个线程同一时间只能有一个被执行;但是使用多进程就可以保证多个线程被多个CPU同时执行。

3、总结
python多线程和多进程不存在优劣之分,两者都有着各自的应用环境。线程几乎不占资源,系统开销少,切换速度快,而且同一个进程的多个线程之间能很容易地实现数据共享;而创建进程需要为它分配单独的资源,系统开销大,切换速度慢,而且不同进程之间的数据默认是不可共享的。

二、Multiprocessing多进程的使用

1、Process
Process([group [, target [, name [, args [, kwargs]]]]])
1)target表示调用对象,你可以传入方法的名字
2)args表示被调用对象的位置参数元组,比如target是函数a,他有两个参数m,n,那么args就传入(m, n)即可
3)kwargs表示调用对象的字典
4)name是别名,相当于给这个进程取一个名字
5)group分组,实际上不使用

在这里介绍一个属性,叫做deamon。每个线程都可以单独设置它的属性,如果设置为True,当父进程结束后,子进程会自动被终止。这样可以有效防止无控制地生成子进程。如果这样写了,你在关闭这个主程序运行时,就无需额外担心子进程有没有被关闭了。
不过这样并不是我们想要达到的效果呀,能不能让所有子进程都执行完了然后再结束呢?那当然是可以的,只需要加入join()方法即可。每个子进程都调用了join()方法,这样父进程(主进程)就会等待子进程执行完毕。

2、Lock
通过Lock来实现在一个进程输出时,加锁,其他进程等待。等此进程执行结束后,释放锁,其他进程可以进行输出。

3、Semaphore
信号量,是在进程同步过程中一个比较重要的角色。可以控制临界资源的数量,保证各个进程之间的互斥和同步。

4、Queue
Queue可以作为进程通信的共享队列使用。因此进程间的通信,队列需要用Queue。当然这里的队列指的是 multiprocessing.Queue

1)put方法
put(obj [, block=True[, timeout]])
调用队列对象的put()方法将obj插入到队列中,
第一个obj为必需参数,为插入项目的值;存入消息的种类不限制。
第二个block为可选参数,默认为True,
当block为True,timeout为空时,q.put([1,2,3])、q.put([1,2,3],True) 表示将序列插入到队尾,阻塞调用,如果q队列满时,一直等待(无超时限制的阻塞调用)。
当block为True,timeout为正整数时,q.put([1,],True,2) 表示阻塞调用进程最多timeout秒,如果超过该时间仍无空间可用,则抛出Queue.Full异常(带超时的阻塞调用)。
当block为False,q.put([1,], False) 表示调用进程时如果有空闲空间则将数据放入队列中,否则立即抛出Queue.Full异常。
简而言之,timeout表示超时等待时间,当队列满时,再存入消息就会发生阻塞(True条件下有效),阻塞时间超过timeout等待时间则抛出异常。

2)get方法
get([block=True[, timeout]])
get方法可以将队列中读取并删除一个元素。
实际上,get()方法的使用与put()函数类似
第一个block可选参数,默认为True。
当block为True,timeout为空时,阻塞等待取值,直到取到为止。
当block为True,timeout为正整数时,在timeout时间内没有取到任何元素,则会抛出Queue.Empty异常;
当block为False时,如果可以取到至时,则会立刻返回该值,如果没有取到元素则会立即抛出Queue.Empty异常。

3)Full
q.full() 判断队列是否为满;若满,返回True,若不满,返回False

4)Empty
q.empty() 判断队列是否为空,若为空,则返回True

5)Qsize
q.qsize() 获取队列中消息数量

5、Pipe
Pipe可以是单向(half-duplex),也可以是双向(duplex)。我们通过mutiprocessing.Pipe(duplex=False)创建单向管道 (默认为双向)。一个进程从PIPE一端输入对象,然后被PIPE另一端的进程接收,单向管道只允许管道一端的进程输入,而双向管道则允许从两端输入。

6、Pool
在利用Python进行系统管理的时候,特别是同时操作多个文件目录,或者远程控制多台主机,并行操作可以节约大量的时间。当被操作对象数目不大时,可以直接利用multiprocessing中的Process动态成生多个进程,十几个还好,但如果是上百个,上千个目标,手动的去限制进程数量却又太过繁琐,此时可以发挥进程池的功效。
Pool可以提供指定数量的进程,供用户调用,当有新的请求提交到pool中时,如果池还没有满,那么就会创建一个新的进程用来执行该请求;但如果池中的进程数已经达到规定最大值,那么该请求就会等待,直到池中有进程结束,才会创建新的进程来它。

三、Threading和Qthread

Threading用于提供线程相关的操作,线程是应用程序中工作的最小单元。python当前版本的多线程库没有实现优先级、线程组,线程也不能被停止、暂停、恢复、中断。Qthread中提供任务终止命令。但如果运行多个任务的时候会发现,所谓的多线程只是在单一线程中顺序执行,如果中间有某一任务需要处理时间较长,会发现很明显的卡顿现象。具体API可参考参考链接。

参考文章

理论参考:https://baijiahao.baidu.com/s?id=1619658295510628021&wfr=spider&for=pc
多线程多进程实验参考:https://blog.csdn.net/qq_37884273/article/details/81510714
Multiprocessing API参考:https://www.cnblogs.com/hanlu5016/p/6924400.html
进程间的通信方法参考:https://www.cnblogs.com/gengyi/p/8647950.html
Threading API 参考: https://www.cnblogs.com/tkqasn/p/5700281.html

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值