Scrapy源码学习-ItemLoader

最新推荐文章于 2022-05-29 19:50:54 发布

VIP文章潘森迷

最新推荐文章于 2022-05-29 19:50:54 发布

阅读量1k

点赞数 1

分类专栏： scrapy 文章标签： python 数据挖掘爬虫

本文链接：https://blog.csdn.net/weixin_38369558/article/details/122909555

版权

item

在scrapy项目结构中，有一个items.py的文件，在里面是专门存放和定义抓取数据字段的。这当然不是强制性要求的。但这种数据字段的定义能够更好地约束未来抓取字段，并且开发者可以一目了然的知道抓了哪些数据。
比如我们需要抓取影视网站，可以这样定义：

class MovieItem(scrapy.Item):
    title = scrapy.Field()
    url = scrapy.Field()
    cover = scrapy.Field()
    actors = scrapy.Field()
    column = scrapy.Field()
    ……

继承的父类scrapy.Item有一个metaclass元类，元类的讲解会在以后的文章中展开[挖坑]。

class Item(DictItem, metaclass=ItemMeta):
    ……

它所做的，就是将继承scrapy.Item的类中所有属性类型为Field的加载到fields字典中。
摘选scrapy/item.py

class ItemMeta(_BaseItemMeta):
    def __new__(mcs, class_name, bases, attrs):
        ……
        for n in dir(_class):
            v = getattr(_class, n)
            # 当属性类型为Field时候，加入fields字段
            if isinstance(v, Field):
                fields[n] = v
            elif n in attrs:
                new_attrs[n] = attrs[n]

        new_attrs['fields'] = fields
        ……
        return super().__new__(mcs, class_name, bases, new_attrs)

一旦爬虫数据字段出现非MovieItem类定义的属性时，比如由于拼写失误，导致title字段写成了tilte，则会产生KeyError: 'tilte'的报错。
相

最低0.47元/天解锁文章

潘森迷

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Scrapy源码学习-ItemLoader

item在scrapy项目结构中，有一个items.py的文件，在里面是专门存放和定义抓取数据字段的。这当然不是强制性要求的。但这种数据字段的定义能够更好地约束未来抓取字段，并且开发者可以一目了然的知道抓了哪些数据。比如我们需要抓取影视网站，可以这样定义：class MovieItem(scrapy.Item): title = scrapy.Field() url = scrapy.Field() cover = scrapy.Field() actors = scr
复制链接

扫一扫