Item Pipeline简介
在Scrapy中, ItemPipeline是处理数据的组件, 一个Item Pipeline就是一个包含特定接口的类, 通常只负责一种功能的数据处理, 在一个项目中可以同时启用多个Item Pipeline, 它们按指定次序级联起来, 形成一条数据处理流水线。
以下是Item Pipeline的几种典型应用:
● 清洗数据。
● 验证数据的有效性。
● 过滤掉重复的数据。
● 将数据存入数据库。
实现Item Pipiline
在创建一个Scrapy项目时, 会自动生成一个pipelines.py文件,它用来放置用户自定义的Item Pipeline。
一个Item Pipeline不需要继承特定基类, 只需要实现某些特定方法, 例如process_item、 open_spider、close_spider。
一个Item Pipeline必须实现一个process_item(item,spider)方法, 该方法用来处理每一项由Spider爬取到的数据, 其中的两个参数:
- Item 爬取到的一项数据(Item或字典)