参考:https://docs.scrapy.org/en/latest/topics/item-pipeline.html#topics-item-pipeline
架构图:
Item Pipeline
就是一些简单的处理Item的类,输入是Item输出也是Item,多个类就组成一个管道。
典型用法:
- 清洗数据
- 验证数据的有效性
- 去重
- 排序
Writing your own item pipeline
process_item
(self, item, spider)
必需实现,必需返回dict或者Item或者Twisted Deferred或者触发DropItem异常,DropItem异常将导致Item停止在Pipeline中的流动。
Parameters: |
|
---|