参考:https://docs.scrapy.org/en/latest/topics/items.html#scrapy.item.Item
SPIDER将从网页中提取出来的数据以dict的形式发射出去,这个dict直接写在代码中,很容易写错,也不能复用。
因此Scrapy专门提供了一个类item class,用来专门定义dict的结构,比如包含那些字段名等。这样集中管理不容易出错,出错也容易修改,可以复——提供了很多有用的存取器。
Declaring Items
import scrapy
class Product(scrapy.Item):
name = scrapy.Field()
price = scrapy.Field()
stock = scrapy.Field()
tags = scrapy.Field()
last_updated = scrapy.Field(serializer=str)
就是定义了一个专门用于存取数据的类,然后调用相关的方法就可以存取数据了,有点像JAVA BEAN。