1. yield解析: yield 的作用就是把一个函数变成一个生成器(generator),带有yield的函数不再是一个普通函数, Python解释器会将其视为一个generator,单独调用(如fab(5))不会执行fab函数,而是返回一个 iterable 对象! 在for循环执行时,每次循环都会执行fab函数内部的代码,执行到yield b时,fab函数就返回一个迭代值,下次迭代时,代码从 yield b 的下一条语句继续执行,而函数的本地变量看起来和上次中断执行前是完全一样的,于是函数继续执行,直到再次遇到 yield。参考实例如下: def fab(max): n, a, b = 0, 0, 1 while n < max: # print b yield b # print b a, b = b, a + b n = n + 1 print(fab(5)) # 输出:<generator object fab at 0x00000000069D8A68> for n in fab(5): print n # 依次1,1,2,3,5 #对于含有yield的函数,外部要以迭代的方式调用,当函数执行结束时,generator 自动抛出 StopIteration 异常,表示迭代完成。 # 在 for 循环里,无需处理 StopIteration 异常,循环会正常结束。 def ff(max): a,b = 0,1 yield max # yield不在循环中,这里已经到函数最后所以直接返回,相当于return for n in ff(5): print n # 输出:5 结论:综上可知,yield要使用在循环中,这样生成器才有使用的意义。 2. 对scrapy中使用yield循环处理网页url的分析 首先,scrapy框架对含有yield关键字的parse()方法的调用是以迭代的方式进行的。相当于 for n in parse(self, response): pass 其次,python将parse()函数视为生成器,但首次调用才会开始执行代码,每次迭代请求(即上面的for循环)才会执行yield处的循环代码,生成每次迭代的值。如下方法: def parse(self, response): # 具体处理逻辑:如,分析页面,找到页面中符合规则的内容(校花图片),保存 hxs = HtmlXPathSelector(response) # 创建查询对象 # 获取所有的url,继续访问,并在其中寻找相同的url all_urls = hxs.select('//a/@href').extract() for url in all_urls: if url.startswith('http://www.xiaohuar.com/list-1-'): yield Request(url, callback=self.parse) # 递归的找下去 print(url) # Scrapy框架开始执行spider,即是对parse()方法迭代的过程{for n in parse(self, response)}, # 首先程序会将第一个response对象分析提取需要的东西,然后提取该response中所有的urls进行循环处理 # 对urls循环处理过程中,首次执行到parse-for-yield处,会返回一个迭代值,即生成一个Request1 对象(其中定义了回调方法为parse); # 此时,第一次迭代结束。 # 第一次迭代过程中生成的Request1对象,即一个新的url请求,会返回一个新的response,然后框架会使用该response执行回调函数,进行另一个分支的迭代处理 # 分支迭代的程序处理完成,进行第二次迭代,会从yield的下一条语句开始,即print,然后继续执行for循环,最后执行到yield,又会生 # 成一个request2 对象, # 生成request2 对象,相当于又开始了一个新的分支,这个分支处理完后返回一个对象后开始回到主程序 # 接下来,开始第三次迭代,又从yield后面的print开始执行..... # 最终,直到循环结束。 注:这里有个疑问,主程序执行到yield后,是等到该次递归调用完全结束后(即第一次循环的url,它内部所有子url都处理完),才进行的第二次迭代吗? 这可以实际测试下,最好子url不要与父url重复。 参考文章:https://www.ibm.com/developerworks/cn/opensource/os-cn-python-yield/ https://www.cnblogs.com/kongqi816-boke/p/5827243.html
scrapy调用parse()中使用yield引发对yield的分析
最新推荐文章于 2024-07-23 10:19:17 发布