前言
在学习Python3 网络爬虫实战,爬取猫眼top100时,作者的代码中用到了yield,而python编程从入门到实践没有说到迭代器和生成器,只好自己百度学习了。
迭代器
迭代是Python最强大的功能之一,是访问集合元素的一种方式。
迭代器是一个可以记住遍历的位置的对象。
迭代器对象从集合的第一个元素开始访问,直到所有的元素被访问完结束。迭代器只能往前不会后退。
迭代器有两个基本的方法:iter() 和 next()。
字符串,列表或元组对象都可用于创建迭代器
这是菜鸟编程中对于python3 迭代器的简单介绍。
实例1:
>>> list=[1,2,3,4]
>>> it = iter(list) # 创建迭代器对象
>>> print (next(it)) # 输出迭代器的下一个元素
1
>>> print (next(it)) # 输出迭代器的下一个元素
2
迭代器对象可以使用常规for语句进行遍历
实例2:
list = [1, 2, 3, 4]
it = iter(list)
for x in it:
print(x, end=" ")
输出:
1 2 3 4
使用 next() 函数:
import sys # 引入 sys 模块
list=[1,2,3,4]
it = iter(list) # 创建迭代器对象
while True:
try:
print (next(it))
except StopIteration:
sys.exit()
生成器
在 Python 中,使用了 yield 的函数被称为生成器(generator)。
跟普通函数不同的是,生成器是一个返回迭代器的函数,只能用于迭代操作,更简单点理解生成器就是一个迭代器。
在调用生成器运行的过程中,每次遇到 yield 时函数会暂停并保存当前所有的运行信息,返回 yield 的值, 并在下一次执行 next() 方法时从当前位置继续运行。
调用一个生成器函数,返回的是一个迭代器对象。
一个示例:
def my_fun():
a = 10
yield a #1
a += 100
yield a #2
a += 2
yield a #3
def main():
test = my_fun()
print(next(test)) #运行到#1处停止
print(next(test)) #运行到#2处停止
print(next(test)) #运行到#3处停止
# print(next(test)) #如果运行,会抛出StopIteration异常
newtest = my_fun()
for x in newtest:
print(x)
if __name__=="__main__":
main()
关于yield 的理解,推荐这两篇:
python中yield的用法详解——最简单,最清晰的解释
彻底理解Python中的yield
再看类似于3.4节中用yield 的那段代码:
def parse_page():
items =[('1', '徐峥', '我不是药神 ', '9.', '3'), ('2','张国荣', '春光乍泄 ', '9.','2')]
for item in items:
yield {
'index':item[0],
'actor':item[1],
'title':item[2].strip(),
'score':item[3].strip() + item[4].strip()
}
for x in parse_page():
print(x)
运行结果:
{'index': '1', 'actor': '徐峥', 'title': '我不是药神', 'score': '9.3'}
{'index': '2', 'actor': '张国荣', 'title': '春光乍泄', 'score': '9.2'}
这时应该就可以看懂啦
参考链接:
Python3 迭代器与生成器