一个生成器如何当两个用?

我们知道,Python 里面的生成器只能被消费一次,例如下面的代码:

def name_generator():
    for name in ['产品经理', 'kingname']:
        yield name

def say_hello(g):
    print('hello 函数开始运行')
    for name in g:
        print('hello', name)
    print('hello 函数运行完成')

def say_hi(g):
    print('hi函数开始运行')
    for name in g:
        print('hi', name)
    print('hi函数运行完成')

names = name_generator()
say_hello(names)
say_hi(names)

运行效果如下图所示:

say_hello函数里面,生成器已经被完整遍历了一次,那么在say_hi里面,就什么数据都拿不到了。

但如果我们用的是列表,就可以多次遍历,如下图所示:

大家注意观察区别。

那么有什么办法,能让生成器被多次完整迭代呢?这个时候就要使用itertools.tee这个函数了。它通过dequeue实现了让生成器多次消费的办法。

itertools.tee的使用方法如下:

生成器1, 生成器2, 生成器3 = itertools.tee(原始生成器, 3)

itertools.tee的第一个参数是原始生成器,第二个参数是你希望让它返回多少个可以复用的生成器。

例如:

import itertools


def name_generator():
    for name in ['产品经理', 'kingname']:
        yield name

def say_hello(g):
    print('hello 函数开始运行')
    for name in g:
        print('hello', name)
    print('hello 函数运行完成')

def say_hi(g):
    print('hi函数开始运行')
    for name in g:
        print('hi', name)
    print('hi函数运行完成')

names = name_generator()
names_1, names_2 = itertools.tee(names, 2)
say_hello(names_1)
say_hi(names_2)

运行效果如下图所示:

但是,itertools.tee有两个缺陷:

其一是如果原始生成器能循环非常多次,产生的数据量非常大,并且你在消费的时候,是先迭代第一个分裂后的生成器,完整迭代完以后再迭代第二个分裂后的生成器,那么这将会浪费大量内存。所以,应该让两个生成器能间隔着迭代,或者“同时”迭代。

其二,多个生成器同时迭代也有问题,分裂出来的多个生成器不是线程安全的,在多线程里面同时运行会导致报错。

在接下来的两篇文章中,我会讲到itertools.tee是如何做到让生成器多次迭代的,然后讲到如何让分裂以后的生成器线程安全。

推荐阅读

Python 爬虫面试题 170 道:2019 版

爬虫必备-JS之Dom操作大全

爬虫工程师教你如何入门Android逆向

你可能不知道的Python装饰器

Python实用技巧大任务切分

添加微信[gopython3].回复:回复Go或者Python加对应技术群

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值