scrapy中yield解析

最新推荐文章于 2023-05-24 22:58:01 发布

Nolannk

最新推荐文章于 2023-05-24 22:58:01 发布

阅读量7.9k

点赞数 4

分类专栏： Spider-Man

本文链接：https://blog.csdn.net/joe_niu/article/details/79714236

版权

Spider-Man 专栏收录该内容

6 篇文章 1 订阅

订阅专栏

1. yield解析：
   yield 的作用就是把一个函数变成一个生成器(generator)，带有yield的函数不再是一个普通函数，
Python解释器会将其视为一个generator，单独调用（如fab(5)）不会执行fab函数，而是返回一个 iterable 对象！
    在for循环执行时，每次循环都会执行fab函数内部的代码，执行到yield b时，fab函数就返回一个迭代值，下次迭代时，代码从 yield b 的下一条语句继续执行，而函数的本地变量看起来和上次中断执行前是完全一样的，于是函数继续执行，直到再次遇到 yield。参考实例如下：
def fab(max):
   n, a, b = 0, 0, 1
   while n < max:
      # print b
      yield b
      # print b
      a, b = b, a + b
      n = n + 1
print(fab(5))  # 输出：<generator object fab at 0x00000000069D8A68>
for n in fab(5):
    print n    # 依次1,1,2,3,5
#对于含有yield的函数，外部要以迭代的方式调用，当函数执行结束时，generator 自动抛出 StopIteration 异常，表示迭代完成。
# 在 for 循环里，无需处理 StopIteration 异常，循环会正常结束。

def ff(max):
   a,b = 0,1
   yield max  # yield不在循环中，这里已经到函数最后所以直接返回，相当于return
for n in ff(5):
   print n    # 输出：5

结论：综上可知，yield要使用在循环中，这样生成器才有使用的意义。


2. 对scrapy中使用yield循环处理网页url的分析
   首先，scrapy框架对含有yield关键字的parse()方法的调用是以迭代的方式进行的。相当于
    for n in parse(self, response):
        pass
   其次，python将parse()函数视为生成器，但首次调用才会开始执行代码，每次迭代请求(即上面的for循环)才会执行yield处的循环代码，生成每次迭代的值。如下方法：
def parse(self, response):
    # 具体处理逻辑：如，分析页面，找到页面中符合规则的内容（校花图片），保存
    hxs = HtmlXPathSelector(response)  # 创建查询对象
    # 获取所有的url，继续访问，并在其中寻找相同的url
    all_urls = hxs.select('//a/@href').extract()
    for url in all_urls:
        if url.startswith('http://www.xiaohuar.com/list-1-'):
            yield Request(url, callback=self.parse)  # 递归的找下去
            print(url)
# Scrapy框架开始执行spider，即是对parse()方法迭代的过程{for n in parse(self, response)}，
# 首先程序会将第一个response对象分析提取需要的东西，然后提取该response中所有的urls进行循环处理
# 对urls循环处理过程中，首次执行到parse-for-yield处，会返回一个迭代值，即生成一个Request1 对象(其中定义了回调方法为parse)；
# 此时，第一次迭代结束。
        # 第一次迭代过程中生成的Request1对象，即一个新的url请求，会返回一个新的response，然后框架会使用该response执行回调函数，进行另一个分支的迭代处理
# 分支迭代的程序处理完成，进行第二次迭代，会从yield的下一条语句开始，即print，然后继续执行for循环，最后执行到yield，又会生
# 成一个request2 对象，
        # 生成request2 对象，相当于又开始了一个新的分支，这个分支处理完后返回一个对象后开始回到主程序
# 接下来，开始第三次迭代，又从yield后面的print开始执行.....
# 最终，直到循环结束。

注：这里有个疑问，主程序执行到yield后，是等到该次递归调用完全结束后(即第一次循环的url，它内部所有子url都处理完)，才进行的第二次迭代吗？  这可以实际测试下，最好子url不要与父url重复。

参考文章：https://www.ibm.com/developerworks/cn/opensource/os-cn-python-yield/
          https://www.cnblogs.com/kongqi816-boke/p/5827243.html

Nolannk

关注

4
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
scrapy中yield解析

1. yield解析： yield 的作用就是把一个函数变成一个生成器(generator)，带有yield的函数不再是一个普通函数，Python解释器会将其视为一个generator，单独调用（如fab(5)）不会执行fab函数，而是返回一个 iterable 对象！在for循环执行时，每次循环都会执行fab函数内部的代码，执行到yield b时，fab函数就返回一个迭代值，...
复制链接

扫一扫

专栏目录