首先说明一下yield与return的关系
两者的功能都是返回某些内容
不同的是:
return 一般只执行一次
而yield一般在迭代器中使用,可循环返回数据
yield应用场景
例如scrapy需要将爬虫获取到的数据逐个返回给管道时应该使用yield
# -*- coding: utf-8 -*-
import scrapy
from scrapy.http.response.html import HtmlResponse
from scrapy.selector.unified import SelectorList
class QsbkSpiderSpider(scrapy.Spider):
name = 'qsbk_spider'
allowed_domains = ['qiushibaike.com']
start_urls = ['https://www.qiushibaike.com/text/page/1/']
def parse(self, response):
# selectorList
duanzidivs = response.xpath("//div[@class='col1 old-style-col1']/div")
for duanzidiv in duanzidivs:
# selector
author = duanzidiv.xpath(".//h2/text()").get().strip()
content = duanzidiv.xpath(".//div[@class='content']//text()").getall()
# 将content由list转换为string
content = "".join(content).strip()
duanzi = {
"author": author,
"content": content,
}
# 将数据传输给piplines
yield duanzi
在这里yield形成一个阻塞,当条件满足时将会执行parse函数的下一步。
如果把此处的yield换成return的话,那么条件完成后就会停止循环,也即parse函数结束任务。