详解Python中yield生成器的用法

最新推荐文章于 2024-03-20 19:31:28 发布

张博208

最新推荐文章于 2024-03-20 19:31:28 发布

阅读量364

点赞数

分类专栏： Python

Python 专栏收录该内容

158 篇文章 2 订阅

订阅专栏

http://blog.csdn.net/hello_katty/article/details/47310843

yield是生成的意思，但是在python中则是作为生成器理解，生成器的用处主要可以迭代，这样简化了很多运算模型(还不是很了解是如何简化的)。

yield是一个表达式,是有返回值的.

当一个函数中含有yield时,它不再是一个普通的函数,而是一个生成器.当该函数被调用时不会自动执行,而是暂停,

参考：http://www.aichengxu.com/view/64610

见第一个例子:

例1:

[py]view plaincopy 
   
 >>> def mygenerator():  
 ...  print 'start...'  
 ...  yield 5  
 ...   
 >>> mygenerator()   //在此处调用,并没有打印出start...说明存在yield的函数没有被运行,即暂停  
 <generator object mygenerator at 0xb762502c>  
 >>> mygenerator().next()  //调用next()即可让函数运行.  
 start...  
 5  
 >>>  

如一个函数中出现多个yield则next()会停止在下一个yield前,见例2:

例2:

[py]view plaincopy 
   
 >>> def mygenerator():  
 ...  print 'start...'  
 ...  yield 5  
 ...   
 >>> mygenerator()   //在此处调用,并没有打印出start...说明存在yield的函数没有被运行,即暂停  
 <generator object mygenerator at 0xb762502c>  
 >>> mygenerator().next()  //调用next()即可让函数运行.  
 start...  
 5  
 >>>  

为什么yield 5会输出5,yield 23会输出23?

我们猜测可能是因为yield是表达式,存在返回值.

那么这是否可以认为yield 5的返回值一定是5吗？实际上并不是这样，这个与send函数存在一定的关系，这个函数实质上与next()是相似的，区别是send是传递yield表达式的值进去，而next不能传递特定的值，只能传递None进去，因此可以认为g.next()和g.send(None)是相同的。见例3:

例3:

[py]view plaincopy 
   
 >>> def fun():  
 ...  print 'start...'  
 ...  m = yield 5  
 ...  print m  
 ...  print 'middle...'  
 ...  d = yield 12  
 ...  print d  
 ...  print 'end...'  
 ...   
 >>> m = fun()    //创建一个对象  
 >>> m.next()    //会使函数执行到下一个yield前  
 start...  
 5  
 >>> m.send('message')  //利用send()传递值  
 message     //send()传递进来的   
 middle...  
 12  
 >>> m.next()  
 None      //可见next()返回值为空  
 end...  
 Traceback (most recent call last):  
  File "<stdin>", line 1, in <module>  
 StopIteration  

在multiprocess中的使用

python在处理数据的时候，memory-heavy 的数据往往会导致程序没办反运行或者运行期间服务器其他程序效率受到影响。这种情况往往会把数据集合变为通过genertor来遍历。

但同时如我们所知，generoter看似只能被单进程消费，这样效率很低。

generator 可以被pool.map消费。

看一下pool.py的源码。

[py]view plaincopy 
   
 for i, task in enumerate(taskseq):  
   ...  
   try:  
    put(task)  
   except IOError:  
    debug('could not put task on queue')  
    break  

实际是先将generator全部消费掉放到queue中。然后通过map来并行。这样是解决了使用map来并行。

但是依然没有解决占用内存的问题。这里有两步占用内存。

第一步是全部消费掉的generator。

第二步并行运算全部data。

解决第一个问题，通过部分消费generator来达到。

解决第二个问题，可以通过imap来达到.

示例代码如下：

[py]view plaincopy 
   
 import multiprocessing as mp  
 import itertools  
 import time  
   
 def g():  
  for el in xrange(50):  
   print el  
   yield el  
   
 import os  
   
 def f(x):  
  time.sleep(1)  
  print str(os.getpid()) +" "+ str(x)  
  return x * x  
   
 if __name__ == '__main__':  
  pool = mp.Pool(processes=4)    # start 4 worker processes  
  go = g()  
  result = []  
  N = 11  
  while True:  
   g2 = pool.imap(f, itertools.islice(go, N))  
   if g2:  
    for i in g2:  
     result.append(i)  
     time.sleep(1)  
   else:  
    break  
  print(result)