scrapy的Pipeline类不可使用yield
业务需求在scarpy的pipeline中处理过数据后再生成新的Request。但如果直接再Pipeline类的process_item方法中yield Request,会导致爬虫执行直接跳过该Pipeline,连个报错都看不到。
排查发现是yield使该函数的调用的返回值成为生成器,而不是相关返回值。
如何在Pipeline中生成新请求
1.参照MediaPipeline。
之所以我会先入为主地认为可以在Pipeline中直接yield出新Request,是因为之前使用过官方自带的MediaPipeline,改写其get_media_requests的方法,并可最终yield出新Request。
则仿照MediaPipeline的process_item完成业务逻辑即可。
MediaPipeline的process_item的主要逻辑如下
def process_item(self, item, spider):
info =