item
在scrapy项目结构中,有一个items.py的文件,在里面是专门存放和定义抓取数据字段的。这当然不是强制性要求的。但这种数据字段的定义能够更好地约束未来抓取字段,并且开发者可以一目了然的知道抓了哪些数据。
比如我们需要抓取影视网站,可以这样定义:
class MovieItem(scrapy.Item):
title = scrapy.Field()
url = scrapy.Field()
cover = scrapy.Field()
actors = scrapy.Field()
column = scrapy.Field()
……
继承的父类scrapy.Item
有一个metaclass元类,元类的讲解会在以后的文章中展开[挖坑]。
class Item(DictItem, metaclass=ItemMeta):
……
它所做的,就是将继承scrapy.Item的类中所有属性类型为Field的加载到fields字典中。
摘选scrapy/item.py
class ItemMeta(_BaseItemMeta):
def __new__(mcs, class_name, bases, attrs):
……
for n in dir(_class):
v = getattr(_class, n)
# 当属性类型为Field时候,加入fields字段
if isinstance(v, Field):
fields[n] = v
elif n in attrs:
new_attrs[n] = attrs[n]
new_attrs['fields'] = fields
……
return super().__new__(mcs, class_name, bases, new_attrs)
一旦爬虫数据字段出现非MovieItem
类定义的属性时,比如由于拼写失误,导致title字段写成了tilte,则会产生KeyError: 'tilte'
的报错。
相