一,yield使用功能原理介绍
首先,如果你还没有对yield有个初步分认识,那么你先把yield看做“return”。看做return之后再把它看做一个是生成器(generator)的一部分(带yield的函数才是真正的迭代器)。
- 好了,如果你对这些不明白的话,那先把yield看做return,然后直接看下面的程序,你就会明白yield的全部意思了:
def foo():
print("starting...")
while True:
res = yield 4
print("res:",res)
g = foo()
print(next(g))
print("*"*20)
print(next(g))
就这么简单的几行代码就让你明白什么是yield,代码的输出这个:
starting... #print("starting...")
4 #yield 4 + print(next(g))
********************
res: None #res = yield 4(实际为None) +print("res:",res)
4 #yield 4 + print(next(g))
我直接解释代码运行顺序,相当于代码单步调试:
1.程序开始执行以后,因为foo函数中有yield关键字,所以foo函数并不会真的执行,而是先得到一个生成器g(相当于一个对象)
2.直到调用next方法,foo函数正式开始执行,先执行foo函数中的print方法,然后进入while循环
3.程序遇到yield关键字,然后把yield想想成return,return了一个4之后,程序停止,并没有执行赋值给res操作,此时next(g)语句执行完成,所以输出的前两行(第一个是while上面的print的结果,第二个是return出的结果)是执行print(next(g))的结果,
4.程序执行print("*"20),输出20个
5.又开始执行下面的print(next(g)),这个时候和上面那个差不多,不过不同的是,这个时候是从刚才那个next程序停止的地方开始执行的,也就是要执行res的赋值操作,这时候要注意,这个时候赋值操作的右边是没有值的(因为刚才那个是return出去了,并没有给赋值操作的左边传参数),所以这个时候res赋值是None,所以接着下面的输出就是res:None,
6.程序会继续在while里执行,又一次碰到yield,这个时候同样return 出4,然后程序停止,print函数输出的4就是这次return出的4.
到这里你可能就明白yield和return的关系和区别了,带yield的函数是一个生成器,而不是一个函数了,这个生成器有一个函数就是next函数,next就相当于“下一步”生成哪个数,这一次的next开始的地方是接着上一次的next停止的地方执行的,所以调用next的时候,生成器并不会从foo函数的开始执行,只是接着上一步停止的地方开始,然后遇到yield后,return出要生成的数,此步就结束。
/****************************************************************************************************************************************/
二,yield生成器的send函数使用介绍
def foo():
print("starting...")
while True:
res = yield 4
print("res:",res)
g = foo()
print(next(g))
print("*"*20)
print(g.send(7))
再看一个这个生成器的send函数的例子,这个例子就把上面那个例子的最后一行换掉了,输出结果:
starting... #print("starting...")
4 #yield 4 + print(next(g))
********************
res: 7 #res = yield 4(实际res = 7) + print("res:",res)
4 #yield 4 + print(g.send(7))
- 先大致说一下send函数的概念:此时你应该注意到上面第二次输出的那个res的值为什么从None变成了7,到底为什么?
- 这是因为,send函数的作用是发送一个参数给res的。
- 因为上面讲到,return的时候,并没有把4赋值给res,下次执行的时候只好继续执行赋值操作,只好赋值为None了,而如果用send的话,开始执行的时候,先接着上一次(return 4之后)执行,先把7赋值给了res,然后执行next的作用,遇见下一回的yield,return出结果后结束。
1.程序执行g.send(7),程序会从yield关键字那一行继续向下运行,send会把7这个值赋值给res变量
2.由于send方法中包含next()方法,所以程序会继续向下运行执行print方法,然后再次进入while循环
3.程序执行再次遇到yield关键字,yield会返回后面的值后,程序再次暂停,直到再次调用next方法或send方法。
/****************************************************************************************************************************************/
三,yield生成器使用简单案例
案例一:取0,1,2,3,4,5,6…1000
说一下,为什么用yield生成器,是因为如果用List的话,会占用更大的空间,比如说取0,1,2,3,4,5,6…1000
def foo(num):
print("starting...")
while num<10:
num=num+1
yield num
for n in foo(0):
print(n)
结果
starting...
1
2
3
4
5
6
7
8
9
10
案例二:结合爬虫模块分次处理数据
import json
import requests
from requests.exceptions import RequestException
import re
import time
def get_one_page(url):
try:
headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.162 Safari/537.36'
}
response = requests.get(url, headers=headers)
if response.status_code == 200:
return response.text #返回str类型的页面内容
return None #访问失败直接结束
except RequestException:
return None #报错直接结束
def parse_one_page(html):
pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a'
+ '.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'
+ '.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>', re.S)
items = re.findall(pattern, html)
for item in items:
yield {
'排名': item[0],
'宣传图片': item[1],
'电影名': item[2],
'主演': item[3].strip()[3:],
'上映时间': item[4].strip()[5:],
'好评得分': item[5] + item[6]
}
def write_to_file(content):
with open('result.txt', 'a', encoding='utf-8') as f:
f.write(json.dumps(content, ensure_ascii=False) + '\n')
def main(offset):
url = 'http://maoyan.com/board/4?offset=' + str(offset)#offset后面加几,页面显示的第一条就是几号排名
html = get_one_page(url)
for item in parse_one_page(html):
write_to_file(item)
if __name__ == '__main__':
for i in range(10):#爬取10页的排名
main(offset=i * 10)
time.sleep(1) #反反爬虫防止爬取过快封ip