详解Python中yield生成器的用法

http://blog.csdn.net/hello_katty/article/details/47310843


yield是生成的意思,但是在python中则是作为生成器理解,生成器的用处主要可以迭代,这样简化了很多运算模型(还不是很了解是如何简化的)。

yield是一个表达式,是有返回值的.

当一个函数中含有yield时,它不再是一个普通的函数,而是一个生成器.当该函数被调用时不会自动执行,而是暂停,

参考:http://www.aichengxu.com/view/64610 

见第一个例子:

例1:

[py]  view plain  copy
  1. >>> def mygenerator():  
  2. ...  print 'start...'  
  3. ...  yield 5  
  4. ...   
  5. >>> mygenerator()   //在此处调用,并没有打印出start...说明存在yield的函数没有被运行,即暂停  
  6. <generator object mygenerator at 0xb762502c>  
  7. >>> mygenerator().next()  //调用next()即可让函数运行.  
  8. start...  
  9. 5  
  10. >>>  


如一个函数中出现多个yield则next()会停止在下一个yield前,见例2:

例2:

[py]  view plain  copy
  1. >>> def mygenerator():  
  2. ...  print 'start...'  
  3. ...  yield 5  
  4. ...   
  5. >>> mygenerator()   //在此处调用,并没有打印出start...说明存在yield的函数没有被运行,即暂停  
  6. <generator object mygenerator at 0xb762502c>  
  7. >>> mygenerator().next()  //调用next()即可让函数运行.  
  8. start...  
  9. 5  
  10. >>>  


为什么yield 5会输出5,yield 23会输出23? 

我们猜测可能是因为yield是表达式,存在返回值.

那么这是否可以认为yield 5的返回值一定是5吗?实际上并不是这样,这个与send函数存在一定的关系,这个函数实质上与next()是相似的,区别是send是传递yield表达式的值进去,而next不能传递特定的值,只能传递None进去,因此可以认为g.next()和g.send(None)是相同的。见例3:

例3:

[py]  view plain  copy
  1. >>> def fun():  
  2. ...  print 'start...'  
  3. ...  m = yield 5  
  4. ...  print m  
  5. ...  print 'middle...'  
  6. ...  d = yield 12  
  7. ...  print d  
  8. ...  print 'end...'  
  9. ...   
  10. >>> m = fun()    //创建一个对象  
  11. >>> m.next()    //会使函数执行到下一个yield前  
  12. start...  
  13. 5  
  14. >>> m.send('message')  //利用send()传递值  
  15. message     //send()传递进来的   
  16. middle...  
  17. 12  
  18. >>> m.next()  
  19. None      //可见next()返回值为空  
  20. end...  
  21. Traceback (most recent call last):  
  22.  File "<stdin>", line 1in <module>  
  23. StopIteration  


在multiprocess中的使用

python在处理数据的时候,memory-heavy 的数据往往会导致程序没办反运行或者运行期间服务器其他程序效率受到影响。这种情况往往会把数据集合变为通过genertor来遍历。

但同时如我们所知,generoter看似只能被单进程消费,这样效率很低。

generator 可以被pool.map消费。

看一下pool.py的源码。

[py]  view plain  copy
  1. for i, task in enumerate(taskseq):  
  2.   ...  
  3.   try:  
  4.    put(task)  
  5.   except IOError:  
  6.    debug('could not put task on queue')  
  7.    break  


实际是先将generator全部消费掉放到queue中。然后通过map来并行。这样是解决了使用map来并行。

但是依然没有解决占用内存的问题。这里有两步占用内存。

第一步是全部消费掉的generator。

第二步并行运算全部data。

解决第一个问题,通过部分消费generator来达到。

解决第二个问题,可以通过imap来达到.

示例代码如下:

[py]  view plain  copy
  1. import multiprocessing as mp  
  2. import itertools  
  3. import time  
  4.   
  5. def g():  
  6.  for el in xrange(50):  
  7.   print el  
  8.   yield el  
  9.   
  10. import os  
  11.   
  12. def f(x):  
  13.  time.sleep(1)  
  14.  print str(os.getpid()) +" "+ str(x)  
  15.  return x * x  
  16.   
  17. if __name__ == '__main__':  
  18.  pool = mp.Pool(processes=4)    # start 4 worker processes  
  19.  go = g()  
  20.  result = []  
  21.  N = 11  
  22.  while True:  
  23.   g2 = pool.imap(f, itertools.islice(go, N))  
  24.   if g2:  
  25.    for i in g2:  
  26.     result.append(i)  
  27.     time.sleep(1)  
  28.   else:  
  29.    break  
  30.  print(result)  


ps: 使用注意事项。在produce数据的时候,尽量少做操作,应为即使是map也是单线程的来消费数据。所以尽量把操作放到map中作。这样才能更好的利用多进程提高效率。 

Python学习教程中心: http://www.aichengxu.com/item/15 


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值