在Python中我们知道关键字yield可以用来实现生成器,我们可以在函数A中访问生成器函数B,待B返回一个结果后,我们可以再次访问B,而B会延续之前的执行状态;这2个函数就像是2个线程一样,在宏观上看来在并行执行;但是与线程不同的是,线程的调度是由操作系统来完成的,对用户包括开发者来说是完全透明的,但是在这里2个函数的控制权切换却是由我们来完成的。从这里,我们就接触到协程的雏形。
def A():
for i in range(3):
print("A get control")
yield i
def B():
for i in A():
print("B get control: %d" % i)
if __name__ == "__main__":
B()
运行结果如下:
A get control
B get control: 0
A get control
B get control: 1
A get control
B get control: 2
协程,可以理解为“用户态的轻量级线程“,其调度需要由用户来实现,包括协程上下文管理、切换等。其相比线程有以下优点:
1. 占用的内存极小,Linux默认情况下线程的堆栈大小为8192KB,协程之间共享堆,不共享栈,我们只需要为每个协程在堆上分配相应的堆栈即可,而这个堆栈大小大概只需要数KB到数百KB,所以是非常廉价的
2. 协程调度开销小,线程的调度需要陷入内核态,由操作系统来完成,涉及到上下文切换等,因此这个开销是很大的;而协程的调度全部在用户态完成
当然,协程也是有它的缺点的,因为工作在用户态,没有硬中断和系统调用(软中断)来打断代码的执行,所以一旦某个协程获取了控制权,只有它显示进行schedule_yield, 我们才会有机会进行调度,所以不像线程那样即使肆无忌惮的执行也不会出现饥饿现象,这也是协程的得名由来即协作式的。
因此我们可以使用协程来处理IO密集型的高并发场景。
Python有很多基于协程的网络库譬如gevent、eventlet,它们都实现了自己的协程,大体思想就是:使用非阻塞的系统调用,然后触发异常后,将控制权交给调度器,调度器处理完定时器事件后,在借由epoll、kqueue等事件模型获取发生的事件,将控制权交给等待事件发生的协程。最近接触了Golang这门语言,发现它特别适合高并发编程,这也归功于它的goroutine(协程)。