您所要求的看起来非常具体,而不是python,并且在一个scriby spider中,您想要的(阻止一个请求等待另一个请求的响应)不会以这种方式工作,因为底层scriby机器。
虽然你可以
yield
一个请求,返回
Request
对象和它的回调只有在传递给底层机器之后才能进行处理,然后才能将响应结果传递给其他分析方法。
如果您实际上只需要一个方法中的另一个方法的数据,并且“了解范围和变量如何在Python中工作”,那么只需调用它:
def parse1(self,response):
return 1
def parse2(self,response):
returned = self.parse1(response)
print str(returned)
但我猜这不是你的敏锐目标,你的榜样也不好。
相反,您可能要寻找的是等待阻塞请求
parse1
,将响应结果返回到
parse2
,继续处理。这在异步世界中不起作用(它等于回到过去),你宁愿
重构代码
不需要这种风格;或者如果你发现自己依赖于一个同步的、阻塞的、编程模型,那么就使用一些除scrapy之外的东西。
不过,尽管如此,你还是可以看看
scrapy-inline-requests
这将帮助你变得懒惰;但是要成功地使用它,你仍然需要了解更深层次的零碎系统和使用它会产生的问题。避免它可能会在将来减轻你的头痛。
考虑到自己受到警告。
(
一定地
阅读项目自述文件的“已知问题”,以及以下自述文件:
flake8-inline-requests
)
使用它,您可以拥有内联请求,并避免编写多个解析方法,如下所示:
import scrapy
from inline_requests import inline_requests
class MySpider(scrapy.Spider):
name = 'myspider'
start_urls = ['http://httpbin.org/html']
@inline_requests ###
def parse(self, response):
urls = [response.url]
for i in range(10):
next_url = response.urljoin('?page=%d' % i)
try:
next_resp = yield scrapy.Request(next_url, meta={'handle_httpstatus_all': True})
### you can then do that ^^^^^^^
urls.append(next_resp.url)
except Exception:
self.logger.info("Failed request %s", i, exc_info=True)
yield {'urls': urls}