协程(coroutine)又称微线程,纤程,是一种用户级的轻量级线程。协程拥有自己的寄存器上下文和栈。协程调度切换时,将寄存器上下文和栈保存到其他地方,在切回来的时候,恢复先前保存的寄存器上下文和栈。因此协程能保留上一次调用时的状态,每次过程重入时,就相当于进入上一次调用的状态。在并发编程中,协程与线程类似,每个协程表示一个执行单元,有自己的本地数据,与其他协程共享全局数据和其他资源。
协程需要用户自己来编写调度逻辑,对于CPU来说,协程其实是单线程,所以PCU不用考虑怎么调度、切换上下文,这就省去了CPU的切换开销,所以协程在一定程度上又好于多线程。
Python通过yield提供了对协程的基本支持,但是不完全,而使用第三方gevent库是更好的选择,gevent提供了比较完善的协程支持。gevent是一个基于协程的Python网络函数库,使用greenlet在libev事件循环顶部提供了一个有高级别并发性的API。
主要特性有以下几点:
1、基于libev的快速事件循环,Linux上是epoll机制
2、基于greenlet的轻量级执行单元
3、API复用了Python标准库里的内容
4、支持SSL的协作式sockets
5、可通过线程池或c-ares实现DNS查询
6、通过monkey patching功能使得第三方模块变成协作式
gevent对协程的支持,本质上是greenlet在实现切换工作。greenlet工作流程如下:假如进行访问网络的IO操作时,出现阻塞,greenlet就显式切换到另一段没有被阻塞的代码段执行,直到原先的阻塞状况消失以后,再自动切换加原来的代码段继续处理。因此,greenlet是一种合理安排的串行方式。
由于IO操作非常耗时,经常使程序处于等待状态,有了gevent为我们自动切换协程,就保证总有greenlet在支行,而不是等待IO,这就是协程一般比多线程效率高的原因。由于切换是在IO操作时自动完成,所以gevent需要修改Python自带的一些标准库,将一些常见的阻塞,如socket、select等地方实现协程跳转,这一过程在启动时通过monkey patch完成。
例子:
from gevent import monkey; monkey.patch_all() import gevent import urllib.request as urllib2 def run_task(url): print('Visit --> %s' % url) try: response = urllib2.urlopen(url) data = response.read() print('%d bytes received from %s.' % (len(data), url)) except Exception as e: print(e) if __name__ == '__main__': urls = ['https://github.com/', 'https://www.python.org', 'http://www.cnblogs.com/'] greenlets = [gevent.spawn(run_task, url) for url in urls] gevent.joinall(greenlets) 结果:
Visit --> https://github.com/
Visit --> https://www.python.org
Visit --> http://www.cnblogs.com/
50738 bytes received from https://www.python.org.
74909 bytes received from http://www.cnblogs.com/.
214015 bytes received from https://github.com/.
上面的程序主要使用了gevent中的spawn方法和joinall方法。spawn方法用来形成协程,joinall方法添加协程任务,并且启动运行。
从结果来看,三个操作是并发执行的,而且结束顺序不同,其实只有一个进程。
gevent还提供了对池的支持,当拥有动态数量的greenletz需要进行并发管理(限制并发数)时,就可以使用池,这在处理大量的网络和IO操作时非常重要。
例子:
from gevent import monkey monkey.patch_all() from gevent.pool import Pool import urllib.request as urllib2 def run_task(url): print('Visit --> %s' % url) try: response = urllib2.urlopen(url) data = response.read() print('%d bytes received from %s.' % (len(data), url)) except Exception as e: print(e) return 'url:%s ---> finish' % url if __name__ == '__main__': pool = Pool(2) urls = ['https://github.com/', 'https://www.python.org', 'http://www.cnblogs.com/'] results = pool.map(run_task, urls) print(results) 结果:
Visit --> https://github.com/
Visit --> https://www.python.org
50738 bytes received from https://www.python.org.
Visit --> http://www.cnblogs.com/
74955 bytes received from http://www.cnblogs.com/.
214015 bytes received from https://github.com/.
['url:https://github.com/ ---> finish', 'url:https://www.python.org ---> finish', 'url:http://www.cnblogs.com/ ---> finish']