进程:资源分配最小单位(有几个cpu,就可以同时处理几个进程)
线程:调度最小单位(cpu处理时候针对的都是线程)
协程:单线程,不同任务之间调度
gevent包:greenlet+IO自动切换(libevent)(python3.4以下)
asyncio包:解决异步IO编程的整套解决方案(async def 协程)
————————————————————————
asyncio(TODO)
……
gevent
实质:greenlet+基于epoll的libevent
- greenlet:基于greenthread,实现了原生的协程(但是不会检测IO,不知道切换到哪个greenlet)
- libevent:实现快速事件循环(epoll是linux上性能最好的多路复用IO就绪通知方法,之后会讲到工作流程)参考:https://www.cnblogs.com/secondtonone1/p/5535722.html、https://blog.csdn.net/drdairen/article/details/53746944
应用:切换是在IO操作时自动完成,所以gevent需要修改Python自带的一些标准库,这一过程在启动时通过monkey patch完成,所以用的时候一般都会在settings或manage.py或uwsgi中加
from gevent import monkey; monkey.patch_all()
patch会将标准库中大部分的阻塞式调用替换成非阻塞的方式,包括socket、ssl、threading、select、httplib等
协程
实现方式:生成器
def consumer():
r = 'x'
while True:
n = yield r
print('n is ...%s' % n)
if __name__ == '__main__':
c = consumer()
print(next(c)) # 与c.send(None)相同,将程序运行到yield之前,yield可以假设成return,所以print时会输出x,
print(next(c)) # 由于将x return出去,所以输出n is ...None,然后再次运行到yield之前,print输出x
print(c.send(1)) # return x之后,send会将值发给yield位置,所以返回n is ...1
print(c.send(2))
线程&进程
https://www.cnblogs.com/zhanht/p/5401685.html
————————————————————————
科普
生成器 & 迭代器
生成器:迭代器的一种,不需要实现__iter__和__next__方法,
生成器包括:
- 带有yield关键字的函数,详解:https://blog.csdn.net/mieleizhi0522/article/details/82142856
- 列表生成式的中括号改为小括号,eg:
g = (x * x for x in range(10))
迭代器:访问者不需要关心迭代器内部的结构,仅需通过next()方法或不断去取下一个内容
迭代器实质:带有__next__()和__iter__()方法,eg:iter([1,2,3])
————————————————————————
阻塞 vs. 非阻塞 & 同步 vs.异步
参考(查的越来越多 越来越深……表示理解的我都饿了):
https://www.cnblogs.com/findumars/p/6361627.html
https://blog.csdn.net/dinglang_2009/article/details/50461697
https://blog.csdn.net/xiexievv/article/details/44976215
https://www.cnblogs.com/Anker/p/5965654.html
https://blog.csdn.net/qq_33314107/article/details/80766381
https://www.jianshu.com/p/36fa2816a9c7
同步IO:
- 阻塞IO: blocking IO,调用recvform中,在IO执行的两个阶段(等待数据和拷贝数据两个阶段)都被block了
- 非阻塞IO:nonblocking IO,主动轮训recvform方法,等待返回True再进行处理。用户进程不断的主动询问内核数据准备好了没有,好了以后拷贝数据(会block),这种方式cpu占用率高。
- 多路复用IO:IO multiplexing,可以一次检测多个连接是否活跃,进程调用了select,那么整个进程会被block,它是线性扫描,即采用轮询的方法,返回的是数字,顶多能判断有没有就绪的io,再将所有数据从内核拷贝到用户进程,再遍历一遍(会block)。和非阻塞相比,这种方式cpu占用小,但是如果某一个执行量太大,后边就会卡住。。。
eg:select、poll、epoll。
epoll是内在使用红黑树快速监控事件,将socket挂在红黑树上,再把ep_poll_callback注册,然后单独申请一个list用来存就绪的event,ep_poll_callback会把就绪io加到list里面,最后由epoll_waite返回已就绪的events,之后再遍历这些events,用epoll_ctl命令处理红黑树节点删除啥啥啥的
详情参考:https://blog.csdn.net/drdairen/article/details/53694550
https://www.open-open.com/lib/view/open1410403215664.html - 信号驱动IO:signal driven IO,信号接收以后会将数据从内核拷贝到用户进程(会block)
异步IO:asynchronous IO,用户进程发起aio_read操作之后,立刻就可以开始去做其它的事,然后等待aio中的信号通知,直接处理数据即可
————————————————————————
计算密集型 vs. IO密集型
计算密集型任务:由于主要消耗CPU资源,同时进行的数量应当等于CPU的核心数。适合多进程
IO密集型:eg涉及到网络、磁盘IO的任务。CPU消耗很少,任务的大部分时间都在等待IO操作完成,任务越多,CPU效率越高,但也有一个限度。适合多线程