python学习笔记_week10

一、多进程multiprocessing

io 操作不占用cpu,计算占cpu(如1+1),上下文切换耗资源(多线程可能不如单线程快),python多线程不适合cup密集操作型的任务,适合io操作密集型的任务

multiprocessing is a package that supports spawning processes using an API similar to the threading module. The multiprocessing package offers both local and remote concurrency, effectively side-stepping the Global Interpreter Lock by using subprocesses instead of threads. Due to this, the multiprocessing module allows the programmer to fully leverage multiple processors on a given machine. It runs on both Unix and Windows.

 1 import multiprocessing
 2 import time,threading
 3 def threading_run():
 4     print(threading.get_ident())
 5 def run(name):
 6     time.sleep(2)
 7     print('hello', name)
 8     t=threading.Thread(target=threading_run,)
 9     t.start()
10 if __name__ == '__main__':
11     for i in range(10):
12         p=multiprocessing.Process(target=run,args=('bob %s'%i,))
13         p.start()
14         # p.join()
多进程

To show the individual process IDs involved, here is an expanded example:

 1 from multiprocessing import Process
 2 import os
 3 def info(title):
 4     print(title)
 5     print('module name:', __name__)
 6     print('parent process:', os.getppid())
 7     print('process id:', os.getpid())
 8     print("\n\n")
 9 def f(name):
10     info('\033[31;1mcalled from child process function f\033[0m')
11     print('hello', name)
12 if __name__ == '__main__':
13     info('\033[32;1mmain process line\033[0m')
14     p = Process(target=f, args=('bob',))
15     p.start()
16     # p.join()
get进程id

二、进程间通讯

同一进程下的线程可以通过线程queue通讯,但不同进程想要通讯必须找中间人(翻译)---进程Queue(不同于线程queue)  

不同进程间内存是不共享的,要想实现两个进程间的数据交换,可以用以下方法:

Queues:使用方法跟threading里的queue差不多

 1 from multiprocessing import Process, Queue
 2 import threading
 3 #import queue
 4 # def f(q):
 5 #     q.put([42, None, 'hello'])
 6 def f(qq):
 7     print("in child:",qq.qsize())
 8     qq.put([42, None, 'hello'])
 9 if __name__ == '__main__':
10     q = Queue()
11     q.put("test123")
12     #p = threading.Thread(target=f,)
13     p = Process(target=f, args=(q,))
14     p.start()
15     p.join()
16     print("444",q.get_nowait())
17     print("444",q.get_nowait())
18      # prints "[42, None, 'hello']"
19     #print(q.get())  # prints "[42, None, 'hello']"
进程queue

Pipes:The Pipe() function returns a pair of connection objects connected by a pipe which by default is duplex (two-way).

 1 from multiprocessing import Process, Pipe
 2 def f(conn):
 3     conn.send([42, None, 'hello from child']) #发几次收几次,发多了,多的就收不到,发少了对方会等着
 4     conn.send([42, None, 'hello from child2'])
 5     print("from parent:",conn.recv())
 6     conn.close()
 7 if __name__ == '__main__':
 8     parent_conn, child_conn = Pipe()
 9     p = Process(target=f, args=(child_conn,))
10     p.start()
11     print(parent_conn.recv())  # prints "[42, None, 'hello']"
12     print(parent_conn.recv())  # prints "[42, None, 'hello']"
13     parent_conn.send("张洋可好") # prints "[42, None, 'hello']"
14     p.join()
pipe

The two connection objects returned by Pipe() represent the two ends of the pipe. Each connection object has send() and recv() methods (among others). Note that data in a pipe may become corrupted if two processes (or threads) try to read from or write to the same end of the pipe at the same time. Of course there is no risk of corruption from processes using different ends of the pipe at the same time.

Managers:A manager object returned by Manager() controls a server process which holds Python objects and allows other processes to manipulate them using proxies.

A manager returned by Manager() will support types listdictNamespaceLockRLockSemaphoreBoundedSemaphoreConditionEventBarrierQueueValue and Array.

 1 from multiprocessing import Process, Manager
 2 import os
 3 def f(d, l):
 4     d[os.getpid()] = os.getpid()
 5     l.append(os.getpid())
 6     print(l)
 7 if __name__ == '__main__':
 8     with Manager() as manager: #不用加锁,manager内部有锁,控制数据不会乱
 9         d = manager.dict() #{}可以在多个进程之间传递和共享的字典
10         l = manager.list(range(5))#可以在多个进程之间传递和共享的列表
11         p_list = [] #多个进程,为join用的
12         for i in range(10):
13             p = Process(target=f, args=(d, l))
14             p.start()
15             p_list.append(p)
16         for res in p_list:#等待结果
17             res.join()
18         print(d)
19         print(l)
manager

进程同步:Without using the lock output from the different processes is liable to get all mixed up.

1 from multiprocessing import Process, Lock
2 def f(l, i):
3     l.acquire()#获得锁,共享屏幕,防止打印时乱掉
4     print('hello world', i)
5     l.release()
6 if __name__ == '__main__':
7     lock = Lock()
8     for num in range(10):
9         Process(target=f, args=(lock, num)).start()
lock

三、进程池

---也可以有线程池(通过信号量),但线程开销不大,线程多最多会导致cpu切换过于频繁,但是进程多了容易把系统搞瘫。  

进程池内部维护一个进程序列,当使用时,则去进程池中获取一个进程,如果进程池序列中没有可供使用的进程,那么程序就会等待,直到进程池中有可用进程为止。

进程池内部维护一个进程序列,当使用时,则去进程池中获取一个进程,如果进程池序列中没有可供使用的进进程,那么程序就会等待,直到进程池中有可用进程为止。

进程池中有两个方法:apply(串行,同步执行)、apply_async(并行,异步执行)

 1 from  multiprocessing import Process,Pool
 2 import time,os
 3 def Foo(i):
 4     time.sleep(2)
 5     print("in process",os.getpid())
 6     return i+100
 7 def Bar(arg):
 8     print('-->exec done:',arg,os.getpid())
 9 #在windows上启动多进程必须写if __name__ == '__main__':
10 if __name__ == '__main__':#手动执行会执行下面的代码,被当做模块导入时不会执行
11     pool = Pool(5) #process=5,允许进程池里同时放入5个进程
12     print("主进程的pid:", os.getpid())
13     for i in range(10):
14         pool.apply_async(func=Foo, args=(i,),callback=Bar)#callback,回调,执行完Foo之后执行Bar,Foo不执行完,不执行Bar
15         #回调的内存id和主进程一样,比如备份数据库时可以在主进程和MySQL建立一条链接,之后子进程回调进行备份,如果没有回调,每一条子进程都要建立一条链接,效率低
16         # pool.apply(func=Foo, args=(i,)) #串行
17         # pool.apply_async(func=Foo, args=(i,)) #并行
18     pool.close() #得先close再join---死记
19     pool.join() #进程池中进程执行完毕后再关闭,如果注释,那么程序直接关闭。
20     print('end')
进程池

三、协程

协程,又称微线程,纤程。英文名Coroutine。一句话说明什么是协程:协程是一种用户态的轻量级线程。(cpu都不知道协程的存在,协程是用户自己控制的,在单线程下实现并发的效果,遇到io操作就切换)

协程拥有自己的寄存器上下文和栈。协程调度切换时,将寄存器上下文和栈保存到其他地方,在切回来的时候,恢复先前保存的寄存器上下文和栈。因此:

协程能保留上一次调用时的状态(即所有局部状态的一个特定组合),每次过程重入时,就相当于进入上一次调用的状态,换种说法:进入上一次离开时所处逻辑流的位置。

协程的好处:

1.无需线程上下文切换的开销

2.无需原子操作锁定及同步的开销

  "原子操作(atomic operation)是不需要synchronized",所谓原子操作是指不会被线程调度机制打断的操作;这种操作一旦开始,就一直运行到结束,中间不会有任何 context switch (切换到另一个线程)。原子操作可以是一个步骤,也可以是多个操作步骤,但是其顺序是不可以被打乱,或者切割掉只执行部分。视作整体是原子性的核心。

3.方便切换控制流,简化编程模型

4.高并发+高扩展性+低成本:一个CPU支持上万的协程都不是问题。所以很适合用于高并发处理。

缺点:

1.无法利用多核资源:协程的本质是个单线程,它不能同时将单个CPU 的多个核用上,协程需要和进程配合才能运行在多CPU上.当然我们日常所编写的绝大部分应用都没有这个必要,除非是cpu密集型应用。

2.进行阻塞(Blocking)操作(如IO时)会阻塞掉整个程序

使用yield实现协程操作例子:

 1 import time
 2 import queue
 3 def consumer(name):
 4     print("--->starting eating baozi...")
 5     while True:
 6         new_baozi = yield #程序返回,唤醒时接收数据
 7         print("[%s] is eating baozi %s" % (name, new_baozi))
 8         # time.sleep(1)
 9 def producer():
10     r = con.__next__() #调用yield第一次是生成器
11     r = con2.__next__()
12     n = 0
13     while n < 5:
14         n += 1
15         con.send(n)
16         con2.send(n)
17         time.sleep(1)
18         print("\033[32;1m[producer]\033[0m is making baozi %s" % n)
19 if __name__ == '__main__':
20     con = consumer("c1")
21     con2 = consumer("c2")
22     p = producer()
yield

看楼上的例子,我问你这算不算做是协程呢?你说,我他妈哪知道呀,你前面说了一堆废话,但是并没告诉我协程的标准形态呀,我腚眼一想,觉得你说也对,那好,我们先给协程一个标准定义,即符合什么条件就能称之为协程:

1.必须在只有一个单线程里实现并发

2.修改共享数据不需加锁

3.用户程序里自己保存多个控制流的上下文栈

4.一个协程遇到IO操作自动切换到其它协程

基于上面这4点定义,我们刚才用yield实现的程并不能算是合格的线程,因为它有一点功能没实现,哪一点呢?

Greenlet:

greenlet是一个用C实现的协程模块,相比与python自带的yield,它可以使你在任意函数之间随意切换,而不需把这个函数先声明为generator

 1 from greenlet import greenlet
 2 def test1():
 3     print(12)
 4     gr2.switch()
 5     print(34)
 6     gr2.switch()
 7 def test2():
 8     print(56)
 9     gr1.switch()
10     print(78)
11 gr1 = greenlet(test1) #启动一个协程
12 gr2 = greenlet(test2)
13 gr1.switch() #手动切换
greenlet

感觉确实用着比generator还简单了呢,但好像还没有解决一个问题,就是遇到IO操作,自动切换,对不对?

Gevent :

Gevent 是一个第三方库,可以轻松通过gevent实现并发同步或异步编程,在gevent中用到的主要模式是Greenlet, 它是以C扩展模块形式接入Python的轻量级协程。 Greenlet全部运行在主程序操作系统进程的内部,但它们被协作式地调度。

 1 import gevent
 2 def func1():
 3     print('\033[31;1m李闯在跟海涛搞...\033[0m')
 4     gevent.sleep(2)#自动判断io,程序花最长io这么多时间,要是串行会花3s
 5     print('\033[31;1m李闯又回去跟继续跟海涛搞...\033[0m')
 6 def func2():
 7     print('\033[32;1m李闯切换到了跟海龙搞...\033[0m')
 8     gevent.sleep(1)
 9     print('\033[32;1m李闯搞完了海涛,回来继续跟海龙搞...\033[0m')
10 def func3():
11     print("running func3")
12     gevent.sleep(0) #io遇到会切换
13     print("running func3 again")
14 gevent.joinall([
15     gevent.spawn(func1),#生成一个协程
16     gevent.spawn(func2),
17     gevent.spawn(func3),
18 ])
gevent

同步与异步的性能区别 

 1 from gevent import monkey
 2 monkey.patch_all()
 3 import gevent
 4 from  urllib.request import urlopen
 5 import time
 6 def f(url):
 7     print('GET: %s' % url)
 8     resp = urlopen(url)
 9     data = resp.read()
10     print('%d bytes received from %s.' % (len(data), url))
11 urls = [ 'https://www.python.org/',
12          'https://www.yahoo.com/',
13          'https://github.com/'
14          ]
15 time_start = time.time()
16 for url in urls:
17     f(url)
18 print("同步cost",time.time() - time_start)
19 async_time_start = time.time()
20 gevent.joinall([
21     gevent.spawn(f, 'https://www.python.org/'),
22     gevent.spawn(f, 'https://www.yahoo.com/'),
23     gevent.spawn(f, 'https://github.com/'),
24 ])
25 print("异步cost",time.time()-async_time_start )
同步异步

遇到IO阻塞时会自动切换任务

 1 from urllib import request
 2 import gevent
 3 from gevent import monkey
 4 monkey.patch_all() #把当前程序的所有的io操作给我单独做上标记
 5 def f(url):
 6     print('GET: %s' % url)
 7     resp = request.urlopen(url)#请求一个url
 8     data = resp.read()#取到结果,data就是要下载的网页
 9     print('%d bytes received from %s.' % (len(data), url))
10 gevent.joinall([
11     gevent.spawn(f, 'https://www.python.org/'),
12     gevent.spawn(f, 'https://www.yahoo.com/'),
13     gevent.spawn(f, 'https://github.com/'),
14 ])
爬虫

四、论事件驱动与异步IO

通常,我们写服务器处理模型的程序时,有以下几种模型:
(1)每收到一个请求,创建一个新的进程,来处理该请求;ForkingTCPServer(一般不用,耗资源)
(2)每收到一个请求,创建一个新的线程,来处理该请求;ThreadingTCPServer
(3)每收到一个请求,放入一个事件列表,让主进程通过非阻塞I/O方式来处理请求
上面的几种方式,各有千秋,
第(1)中方法,由于创建新的进程的开销比较大,所以,会导致服务器性能比较差,但实现比较简单。
第(2)种方式,由于要涉及到线程的同步,有可能会面临死锁等问题。
第(3)种方式,在写应用程序代码时,逻辑比前面两种都复杂。(事件驱动模式)
综合考虑各方面因素,一般普遍认为第(3)种方式是大多数网络服务器采用的方式(Nginx,python很多模型)

看图说话讲事件驱动模型

在UI编程中,常常要对鼠标点击进行响应,首先如何获得鼠标点击呢?
方式一:创建一个线程,该线程一直循环检测是否有鼠标点击,那么这个方式有以下几个缺点
1. CPU资源浪费,可能鼠标点击的频率非常小,但是扫描线程还是会一直循环检测,这会造成很多的CPU资源浪费;如果扫描鼠标点击的接口是阻塞的呢?
2. 如果是堵塞的,又会出现下面这样的问题,如果我们不但要扫描鼠标点击,还要扫描键盘是否按下,由于扫描鼠标时被堵塞了,那么可能永远不会去扫描键盘;
3. 如果一个循环需要扫描的设备非常多,这又会引来响应时间的问题;
所以,该方式是非常不好的。
方式二:就是事件驱动模型
目前大部分的UI编程都是事件驱动模型,如很多UI平台都会提供onClick()事件,这个事件就代表鼠标按下事件。事件驱动模型大体思路如下:
1. 有一个事件(消息)队列;
2. 鼠标按下时,往这个队列中增加一个点击事件(消息);
3. 有个循环,不断从队列取出事件,根据不同的事件,调用不同的函数,如onClick()、onKeyDown()等;
4. 事件(消息)一般都各自保存各自的处理函数指针,这样,每个消息都有独立的处理函数;

事件驱动编程是一种编程范式,这里程序的执行流由外部事件来决定。它的特点是包含一个事件循环,当外部事件发生时使用回调机制来触发相应的处理。另外两种常见的编程范式是(单线程)同步以及多线程编程。

让我们用例子来比较和对比一下单线程、多线程以及事件驱动编程模型。下图展示了随着时间的推移,这三种模式下程序所做的工作。这个程序有3个任务需要完成,每个任务都在等待I/O操作时阻塞自身。阻塞在I/O操作上所花费的时间已经用灰色框标示出来了。

在单线程同步模型中,任务按照顺序执行。如果某个任务因为I/O而阻塞,其他所有的任务都必须等待,直到它完成之后它们才能依次执行。这种明确的执行顺序和串行化处理的行为是很容易推断得出的。如果任务之间并没有互相依赖的关系,但仍然需要互相等待的话这就使得程序不必要的降低了运行速度。

在多线程版本中,这3个任务分别在独立的线程中执行。这些线程由操作系统来管理,在多处理器系统上可以并行处理,或者在单处理器系统上交错执行。这使得当某个线程阻塞在某个资源的同时其他线程得以继续执行。与完成类似功能的同步程序相比,这种方式更有效率,但程序员必须写代码来保护共享资源,防止其被多个线程同时访问。多线程程序更加难以推断,因为这类程序不得不通过线程同步机制如锁、可重入函数、线程局部存储或者其他机制来处理线程安全问题,如果实现不当就会导致出现微妙且令人痛不欲生的bug。

在事件驱动版本的程序中,3个任务交错执行,但仍然在一个单独的线程控制中。当处理I/O或者其他昂贵的操作时,注册一个回调到事件循环中,然后当I/O操作完成时继续执行。回调描述了该如何处理某个事件。事件循环轮询所有的事件,当事件到来时将它们分配给等待处理事件的回调函数。这种方式让程序尽可能的得以执行而不需要用到额外的线程。事件驱动型程序比多线程程序更容易推断出行为,因为程序员不需要关心线程安全问题。

当我们面对如下的环境时,事件驱动模型通常是一个好的选择:

1.程序中有许多任务,而且…

2.任务之间高度独立(因此它们不需要互相通信,或者等待彼此)而且…

3.在等待事件到来时,某些任务会阻塞。

当应用程序需要在任务间共享可变的数据时,这也是一个不错的选择,因为这里不需要采用同步处理。

网络应用程序通常都有上述这些特点,这使得它们能够很好的契合事件驱动编程模型。

此处要提出一个问题,就是,上面的事件驱动模型中,只要一遇到IO就注册一个事件,然后主程序就可以继续干其它的事情了,只到io处理完毕后,继续恢复之前中断的任务,这本质上是怎么实现的呢?哈哈,下面我们就来一起揭开这神秘的面纱。。。。

----io多路复用:http://www.cnblogs.com/alex3714/articles/5876749.html 

同步IO和异步IO,阻塞IO和非阻塞IO分别是什么,到底有什么区别?不同的人在不同的上下文下给出的答案是不同的。所以先限定一下本文的上下文。以下讨论的背景是Linux环境下的network IO。

在 Linux 的缓存 I/O 机制中,操作系统会将 I/O 的数据缓存在文件系统的页缓存( page cache )中,也就是说,数据会先被拷贝到操作系统内核的缓冲区中,然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。从内核态到用户态。

1.io模式

对于一次IO访问(以read举例),数据会先被拷贝到操作系统内核的缓冲区中,然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。所以说,当一个read操作发生时,它会经历两个阶段:
1. 等待数据准备 (Waiting for the data to be ready)
2. 将数据从内核拷贝到进程中 (Copying the data from the kernel to the process)

正式因为这两个阶段,linux系统产生了下面五种网络模式的方案。
- 阻塞 I/O(blocking IO)
- 非阻塞 I/O(nonblocking IO)
- I/O 多路复用( IO multiplexing)
- 信号驱动 I/O( signal driven IO)
- 异步 I/O(asynchronous IO)

注:由于signal driven IO在实际中并不常用,所以我这只提及剩下的四种IO Model。

阻塞 I/O(blocking IO)

在linux中,默认情况下所有的socket都是blocking,一个典型的读操作流程大概是这样:

当用户进程调用了recvfrom这个系统调用,kernel就开始了IO的第一个阶段:准备数据(对于网络IO来说,很多时候数据在一开始还没有到达。比如,还没有收到一个完整的UDP包。这个时候kernel就要等待足够的数据到来)。这个过程需要等待,也就是说数据被拷贝到操作系统内核的缓冲区中是需要一个过程的。而在用户进程这边,整个进程会被阻塞(当然,是进程自己选择的阻塞)。当kernel一直等到数据准备好了,它就会将数据从kernel中拷贝到用户内存,然后kernel返回结果,用户进程才解除block的状态,重新运行起来。

所以,blocking IO的特点就是在IO执行的两个阶段都被block了。

单线程阻塞模式下没办法实现多路io

非阻塞 I/O(nonblocking IO)

linux下,可以通过设置socket使其变为non-blocking。当对一个non-blocking socket执行读操作时,流程是这个样子:

当用户进程发出read操作时,如果kernel中的数据还没有准备好,那么它并不会block用户进程,而是立刻返回一个error。从用户进程角度讲 ,它发起一个read操作后,并不需要等待,而是马上就得到了一个结果。用户进程判断结果是一个error时,它就知道数据还没有准备好,于是它可以再次发送read操作。一旦kernel中的数据准备好了,并且又再次收到了用户进程的system call,那么它马上就将数据拷贝到了用户内存,然后返回。

所以,nonblocking IO的特点是用户进程需要不断的主动询问kernel数据好了没有。

I/O 多路复用( IO multiplexing)

IO multiplexing就是我们说的select,poll,epoll,有些地方也称这种IO方式为event driven IO。select/epoll的好处就在于单个process就可以同时处理多个网络连接的IO。它的基本原理就是select,poll,epoll这个function会不断的轮询所负责的所有socket,当某个socket有数据到达了,就通知用户进程。

当用户进程调用了select,那么整个进程会被block,而同时,kernel会“监视”所有select负责的socket,当任何一个socket中的数据准备好了,select就会返回。这个时候用户进程再调用read操作,将数据从kernel拷贝到用户进程。

所以,I/O 多路复用的特点是通过一种机制一个进程能同时等待多个文件描述符,而这些文件描述符(套接字描述符)(索引值)其中的任意一个进入读就绪状态,select()函数就可以返回。

这个图和blocking IO的图其实并没有太大的不同,事实上,还更差一些。因为这里需要使用两个system call (select 和 recvfrom),而blocking IO只调用了一个system call (recvfrom)。但是,用select的优势在于它可以同时处理多个connection。

所以,如果处理的连接数不是很高的话,使用select/epoll的web server不一定比使用multi-threading + blocking IO的web server性能更好,可能延迟还更大。select/epoll的优势并不是对于单个连接能处理得更快,而是在于能处理更多的连接。)

在IO multiplexing Model中,实际中,对于每一个socket,一般都设置成为non-blocking,但是,如上图所示,整个用户的process其实是一直被block的。只不过process是被select这个函数block,而不是被socket IO给block。

异步 I/O(asynchronous IO)

linux下的asynchronous IO其实用得很少。先看一下它的流程:

用户进程发起read操作之后,立刻就可以开始去做其它的事。而另一方面,从kernel的角度,当它受到一个asynchronous read之后,首先它会立刻返回,所以不会对用户进程产生任何block。然后,kernel会等待数据准备完成,然后将数据拷贝到用户内存,当这一切都完成之后,kernel会给用户进程发送一个signal,告诉它read操作完成了。

2.总结

blocking和non-blocking的区别

调用blocking IO会一直block住对应的进程直到操作完成,而non-blocking IO在kernel还准备数据的情况下会立刻返回。

synchronous IO和asynchronous IO的区别

在说明synchronous IO和asynchronous IO的区别之前,需要先给出两者的定义。POSIX的定义是这样子的:
- A synchronous I/O operation causes the requesting process to be blocked until that I/O operation completes;
- An asynchronous I/O operation does not cause the requesting process to be blocked;

两者的区别就在于synchronous IO做”IO operation”的时候会将process阻塞。按照这个定义,之前所述的blocking IO,non-blocking IO,IO multiplexing都属于synchronous IO。

有人会说,non-blocking IO并没有被block啊。这里有个非常“狡猾”的地方,定义中所指的”IO operation”是指真实的IO操作,就是例子中的recvfrom这个system call。non-blocking IO在执行recvfrom这个system call的时候,如果kernel的数据没有准备好,这时候不会block进程。但是,当kernel中数据准备好的时候,recvfrom会将数据从kernel拷贝到用户内存中,这个时候进程是被block了,在这段时间内,进程是被block的。

而asynchronous IO则不一样,当进程发起IO 操作之后,就直接返回再也不理睬了,直到kernel发送一个信号,告诉进程说IO完成。在这整个过程中,进程完全没有被block。

各个IO Model的比较如图所示:

通过上面的图片,可以发现non-blocking IO和asynchronous IO的区别还是很明显的。在non-blocking IO中,虽然进程大部分时间都不会被block,但是它仍然要求进程去主动的check,并且当数据准备完成以后,也需要进程主动的再次调用recvfrom来将数据拷贝到用户内存。而asynchronous IO则完全不同。它就像是用户进程将整个IO操作交给了他人(kernel)完成,然后他人做完后发信号通知。在此期间,用户进程不需要去检查IO操作的状态,也不需要主动的去拷贝数据。

五、Select\Poll\Epoll异步IO http://www.cnblogs.com/alex3714/p/4372426.html 

windows不支持epoll,支持select。epoll现在用的最多,监视的文件描述符的数量没有限制。市面上Nginx,Tornado,Twisted所谓的异步io其实是io多路复用。

select,epoll相当于底层的东西,平时用的时候都是用封装好的,下面只讲下select

Python select 

Python的select()方法直接调用操作系统的IO接口,它监控sockets,open files, and pipes(所有带fileno()方法的文件句柄)何时变成readable 和writeable, 或者通信错误,select()使得同时监控多个连接变的简单,并且这比写一个长循环来等待和监控多客户端连接要高效,因为select直接通过操作系统提供的C的网络接口进行操作,而不是通过Python的解释器。

注意:Using Python’s file objects with select() works for Unix, but is not supported under Windows.

接下来通过echo server例子要以了解select 是如何通过单进程实现同时处理多个非阻塞的socket连接的

 1 import select
 2 import socket
 3 import queue
 4 server=socket.socket()
 5 server.bind(("localhost",9000))
 6 server.listen(1000)
 7 server.setblocking(False) #设置为不阻塞
 8 msg_dic={}
 9 inputs=[server,]
10 #inputs=[server,conn,coon2] #[conn] server活跃代表来了新链接,conn活跃代表传数据
11 outputs=[] #r1
12 while True:
13     readable,writeable,exceptional=select.select(inputs,outputs,inputs) #交给select监测
14     print(readable,writeable,exceptional)
15     for r in readable:
16         if r is server:#代表来了一个新链接
17             conn,addr=server.accept()#没有链接就报错
18             print("来了个新链接",addr)
19             inputs.append(conn) #是因为这个新建立的链接还没发数据过来,现在就接收的话程序就报错了,
20             #所以要想实现这个客户端发数据来时server端能知道,就需要让select再监测这个conn
21             msg_dic[conn]=queue.Queue()#初始化一个队列,后面要存返回给这个客户端的数据
22         else:
23             data=r.recv(1024) #conn.recv的话,conn2来数据会出错
24             print("收到数据",data)
25             msg_dic[r].put(data)
26             outputs.append(r) #放入返回的链接队列里
27             # r.send(data) 发给客户端不会出错,但是客户端不收的话数据就没了
28             # print("send done")
29     for w in writeable: #要返回给客户端的链接列表
30         data_to_client=msg_dic[w].get()
31         w.send(data_to_client) #返回给客户端源数据,不会立即返回,而是下一次循环返回
32         outputs.remove(w) #确保下次循环的时候writeable不会返回这个已经处理完的链接了
33     for e in exceptional:
34         if e in outputs:
35             outputs.remove(e)
36         inputs.remove(e)
37         del msg_dic[e]
python_select_server
 1 import socket
 2 HOST = 'localhost'  # The remote host
 3 PORT = 9000  # The same port as used by the server
 4 s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
 5 s.connect((HOST, PORT))
 6 while True:
 7     msg = bytes(input(">>:"), encoding="utf8")
 8     s.sendall(msg)
 9     data = s.recv(1024)
10     print('Received',data) #repr格式化输出
11 s.close()
client

 完整版:

 1 import select
 2 import socket
 3 import sys
 4 import queue
 5 server = socket.socket()
 6 server.setblocking(0)
 7 server_addr = ('localhost',9998)
 8 print('starting up on %s port %s' % server_addr)
 9 server.bind(server_addr)
10 server.listen(5)
11 inputs = [server, ] #自己也要监测呀,因为server本身也是个fd
12 outputs = []
13 message_queues = {}
14 while True:
15     print("waiting for next event...")
16     readable, writeable, exeptional = select.select(inputs,outputs,inputs) #如果没有任何fd就绪,那程序就会一直阻塞在这里
17     for s in readable: #每个s就是一个socket
18         if s is server: #别忘记,上面我们server自己也当做一个fd放在了inputs列表里,传给了select,如果这个s是server,代表server这个fd就绪了,
19             #就是有活动了, 什么情况下它才有活动? 当然 是有新连接进来的时候 呀
20             #新连接进来了,接受这个连接
21             conn, client_addr = s.accept()
22             print("new connection from",client_addr)
23             conn.setblocking(0)
24             inputs.append(conn) #为了不阻塞整个程序,我们不会立刻在这里开始接收客户端发来的数据, 把它放到inputs里, 下一次loop时,这个新连接
25             #就会被交给select去监听,如果这个连接的客户端发来了数据 ,那这个连接的fd在server端就会变成就续的,select就会把这个连接返回,返回到
26             #readable 列表里,然后你就可以loop readable列表,取出这个连接,开始接收数据了, 下面就是这么干 的
27             message_queues[conn] = queue.Queue() #接收到客户端的数据后,不立刻返回 ,暂存在队列里,以后发送
28         else: #s不是server的话,那就只能是一个 与客户端建立的连接的fd了
29             #客户端的数据过来了,在这接收
30             data = s.recv(1024)
31             if data:
32                 print("收到来自[%s]的数据:" % s.getpeername()[0], data)
33                 message_queues[s].put(data) #收到的数据先放到queue里,一会返回给客户端
34                 if s not  in outputs:
35                     outputs.append(s) #为了不影响处理与其它客户端的连接 , 这里不立刻返回数据给客户端
36             else:#如果收不到data代表什么呢? 代表客户端断开了呀
37                 print("客户端断开了",s)
38                 if s in outputs:
39                     outputs.remove(s) #清理已断开的连接
40                 inputs.remove(s) #清理已断开的连接
41                 del message_queues[s] ##清理已断开的连接
42     for s in writeable:
43         try :
44             next_msg = message_queues[s].get_nowait()
45         except queue.Empty:
46             print("client [%s]" %s.getpeername()[0], "queue is empty..")
47             outputs.remove(s)
48         else:
49             print("sending msg to [%s]"%s.getpeername()[0], next_msg)
50             s.send(next_msg.upper())
51     for s in exeptional:
52         print("handling exception for ",s.getpeername())
53         inputs.remove(s)
54         if s in outputs:
55             outputs.remove(s)
56         s.close()
57         del message_queues[s]
server
 1 import socket
 2 import sys
 3 messages = [ b'This is the message. ',
 4              b'It will be sent ',
 5              b'in parts.',
 6              ]
 7 server_address = ('localhost', 9998)
 8 # Create a TCP/IP socket
 9 socks = [ socket.socket(socket.AF_INET, socket.SOCK_STREAM) for i in range(400)]
10 print(socks)
11 # Connect the socket to the port where the server is listening
12 print('connecting to %s port %s' % server_address)
13 for s in socks:
14     s.connect(server_address)
15 for message in messages:
16     # Send messages on both sockets
17     for s in socks:
18         print('%s: sending "%s"' % (s.getsockname(), message) )
19         s.send(message)
20     # Read responses on both sockets
21     for s in socks:
22         data = s.recv(1024)
23         print( '%s: received "%s"' % (s.getsockname(), data) )
24         if not data:
25             print('closing socket', s.getsockname() )
client

selectors模块

This module allows high-level and efficient I/O multiplexing, built upon the select module primitives. Users are encouraged to use this module instead, unless they want precise control over the OS-level primitives used.

 1 import selectors
 2 import socket
 3 sel = selectors.DefaultSelector()
 4 def accept(sock, mask):
 5     conn, addr = sock.accept()  # Should be ready
 6     print('accepted', conn, 'from', addr,mask)
 7     conn.setblocking(False)
 8     sel.register(conn, selectors.EVENT_READ, read) #新链接注册read回调函数
 9 def read(conn, mask):
10     data = conn.recv(1024)  # Should be ready
11     if data:
12         print('echoing', repr(data), 'to', conn)
13         conn.send(data)  # Hope it won't block
14     else:
15         print('closing', conn)
16         sel.unregister(conn)
17         conn.close()
18 sock = socket.socket()
19 sock.bind(('localhost', 9999))
20 sock.listen(5000)
21 sock.setblocking(False)
22 sel.register(sock, selectors.EVENT_READ, accept) #注册事件
23 while True:
24     events = sel.select() #有可能是epoll,看系统支持啥。默认是阻塞,有活动链接就返回活动的链接列表
25     for key, mask in events:
26         callback = key.data #相当于调accept
27         callback(key.fileobj, mask) #key.fileobj文件句柄,相当于链接还没建立好的r
selector

作业:用select或selector做一个ftp多并发的上传和下载

posted on 2017-11-16 18:16  我很好u 阅读( ...) 评论( ...) 编辑 收藏

转载于:https://www.cnblogs.com/jyh-py-blog/p/7845689.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值