python协程编程实例_python并发编程--协程---从菜鸟到老鸟（四）-CSDN博客

如何更好地并发编程

简介

python不仅内置了multiprocess模块，而且还内置了asyncio和concurrent模块。除了要分析这两个内置的，其实我们还要再下面另一个第三方joblib包。

我们经常喜欢单机处理数据，或者数据量一大就采用分布式的方式，其实并发编程是一个很好的选择。

asyncio

concurrent

joblib

但是第一件事我们要知道采用进程的最终目的是什么？一般都是达到异步IO。那么异步IO是什么？

异步IO

异步IO是个好东西，在网络读写场景中可以大大提高程序的并发能力，比如爬虫、web服务等。这样的好东西自然也要在Python中可以使用。不过，在漫长的Python2时代，官方并没有推出一个自己的异步IO库，到了Python 3.4 才推出。

我们先从各种IO模型中去理解异步IO，那么IO可以分为几类呢？同步IO、异步IO、阻塞IO、非阻塞IO

同步是指代码调IO操作时，必须等待IO操作完成才返回的调用方式。

异步是指代码调用IO操作时，不必等IO操作完成就返回的调用方式。

阻塞是指调用函数时候当前线程被挂起。

阻塞是指调用函数时候当前线程不会被挂起，而是立即返回。

IO模型

阻塞IO模型

使用recv的默认参数一直等数据直到拷贝到用户空间，这段时间内进程始终阻塞。A同学用杯子装水，打开水龙头装满水然后离开。这一过程就可以看成是使用了阻塞IO模型，因为如果水龙头没有水，他也要等到有水并装满杯子才能离开去做别的事情。很显然，这种IO模型是同步的。

非阻塞IO模型

改变flags，让recv不管有没有获取到数据都返回，如果没有数据那么一段时间后再调用recv看看，如此循环。B同学也用杯子装水，打开水龙头后发现没有水，它离开了，过一会他又拿着杯子来看看……在中间离开的这些时间里，B同学离开了装水现场(回到用户进程空间)，可以做他自己的事情。这就是非阻塞IO模型。但是它只有是检查无数据的时候是非阻塞的，在数据到达的时候依然要等待复制数据到用户空间(等着水将水杯装满)，因此它还是同步IO。

IO复用模型

这里在调用recv前先调用select或者poll，这2个系统调用都可以在内核准备好数据(网络数据到达内核)时告知用户进程，这个时候再调用recv一定是有数据的。因此这一过程中它是阻塞于select或poll，而没有阻塞于recv，有人将非阻塞IO定义成在读写操作时没有阻塞于系统调用的IO操作(不包括数据从内核复制到用户空间时的阻塞，因为这相对于网络IO来说确实很短暂)，如果按这样理解，这种IO模型也能称之为非阻塞IO模型，但是按POSIX来看，它也是同步IO，那么也和楼上一样称之为同步非阻塞IO吧。

这种IO模型比较特别，分个段。因为它能同时监听多个文件描述符(fd)。这个时候C同学来装水，发现有一排水龙头，舍管阿姨告诉他这些水龙头都还没有水，等有水了告诉他。于是等啊等(select调用中)，过了一会阿姨告诉他有水了，但不知道是哪个水龙头有水，自己看吧。于是C同学一个个打开，往杯子里装水(recv)。这里再顺便说说鼎鼎大名的epoll(高性能的代名词啊)，epoll也属于IO复用模型，主要区别在于舍管阿姨会告诉C同学哪几个水龙头有水了，不需要一个个打开看(当然还有其它区别)。

信号驱动IO模型

通过调用sigaction注册信号函数，等内核数据准备好的时候系统中断当前程序，执行信号函数(在这里面调用recv)。D同学让舍管阿姨等有水的时候通知他(注册信号函数)，没多久D同学得知有水了，跑去装水。是不是很像异步IO？

很遗憾，它还是同步IO(省不了装水的时间啊)。

异步IO模型

调用aio_read，让内核等数据准备好，并且复制到用户进程空间后执行事先指定好的函数。E同学让舍管阿姨将杯子装满水后通知他。整个过程E同学都可以做别的事情(没有recv)，这才是真正的异步IO。

总结

一般来讲：阻塞IO模型、非阻塞IO模型、IO复用模型(select/poll/epoll)、信号驱动IO模型都属于同步IO，因为阶段2是阻塞的(尽管时间很短)。只有异步IO模型是符合POSIX异步IO操作含义的，不管在阶段1还是阶段2都可以干别的事。

IO的拓展

其实整个IO过程再加上生成者就可以组建成生产消费模型。

那我们在看看进程与线程在操作系统中所处的地位：

那么为什么我们还要引入另一种更细小的程序(操作程序)的单位？

我们先看在定义生产与消费模型中，我们必须要做些什么