scrapy中yield解析

1. yield解析:
   yield 的作用就是把一个函数变成一个生成器(generator),带有yield的函数不再是一个普通函数,
Python解释器会将其视为一个generator,单独调用(如fab(5))不会执行fab函数,而是返回一个 iterable 对象!
    在for循环执行时,每次循环都会执行fab函数内部的代码,执行到yield b时,fab函数就返回一个迭代值,下次迭代时,代码从 yield b 的下一条语句继续执行,而函数的本地变量看起来和上次中断执行前是完全一样的,于是函数继续执行,直到再次遇到 yield。参考实例如下:
def fab(max):
   n, a, b = 0, 0, 1
   while n < max:
      # print b
      yield b
      # print b
      a, b = b, a + b
      n = n + 1
print(fab(5))  # 输出:<generator object fab at 0x00000000069D8A68>
for n in fab(5):
    print n    # 依次1,1,2,3,5
#对于含有yield的函数,外部要以迭代的方式调用,当函数执行结束时,generator 自动抛出 StopIteration 异常,表示迭代完成。
# 在 for 循环里,无需处理 StopIteration 异常,循环会正常结束。

def ff(max):
   a,b = 0,1
   yield max  # yield不在循环中,这里已经到函数最后所以直接返回,相当于return
for n in ff(5):
   print n    # 输出:5

结论:综上可知,yield要使用在循环中,这样生成器才有使用的意义。


2. 对scrapy中使用yield循环处理网页url的分析
   首先,scrapy框架对含有yield关键字的parse()方法的调用是以迭代的方式进行的。相当于
    for n in parse(self, response):
        pass
   其次,python将parse()函数视为生成器,但首次调用才会开始执行代码,每次迭代请求(即上面的for循环)才会执行yield处的循环代码,生成每次迭代的值。如下方法:
def parse(self, response):
    # 具体处理逻辑:如,分析页面,找到页面中符合规则的内容(校花图片),保存
    hxs = HtmlXPathSelector(response)  # 创建查询对象
    # 获取所有的url,继续访问,并在其中寻找相同的url
    all_urls = hxs.select('//a/@href').extract()
    for url in all_urls:
        if url.startswith('http://www.xiaohuar.com/list-1-'):
            yield Request(url, callback=self.parse)  # 递归的找下去
            print(url)
# Scrapy框架开始执行spider,即是对parse()方法迭代的过程{for n in parse(self, response)},
# 首先程序会将第一个response对象分析提取需要的东西,然后提取该response中所有的urls进行循环处理
# 对urls循环处理过程中,首次执行到parse-for-yield处,会返回一个迭代值,即生成一个Request1 对象(其中定义了回调方法为parse);
# 此时,第一次迭代结束。
        # 第一次迭代过程中生成的Request1对象,即一个新的url请求,会返回一个新的response,然后框架会使用该response执行回调函数,进行另一个分支的迭代处理
# 分支迭代的程序处理完成,进行第二次迭代,会从yield的下一条语句开始,即print,然后继续执行for循环,最后执行到yield,又会生
# 成一个request2 对象,
        # 生成request2 对象,相当于又开始了一个新的分支,这个分支处理完后返回一个对象后开始回到主程序
# 接下来,开始第三次迭代,又从yield后面的print开始执行.....
# 最终,直到循环结束。

注:这里有个疑问,主程序执行到yield后,是等到该次递归调用完全结束后(即第一次循环的url,它内部所有子url都处理完),才进行的第二次迭代吗?  这可以实际测试下,最好子url不要与父url重复。

参考文章:https://www.ibm.com/developerworks/cn/opensource/os-cn-python-yield/
          https://www.cnblogs.com/kongqi816-boke/p/5827243.html
  • 4
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值