scrapy之Spider组件以及Item对象源码分析

本文深入分析了Scrapy框架中的Spider组件,包括其工作流程、关键方法如start_requests、parse等,以及Spider的name、custom_settings等属性。此外,还介绍了Item对象作为结构化数据容器的作用,其基于DictItem类,提供类似字典的操作,并通过Field对象存储字段元数据。
摘要由CSDN通过智能技术生成
1、Spider组件

  Spider类定义了抓取一个或者多个网页的动作,以及如何提取结构化的数据。对Spider来说整个流程如同下面的循环:
(1)从第一个URL中生成第一个初始化的Request,并设置回调函数,当这些Requst下载生成response后,这些回调函数将被调用。
(2)在回调函数内解析返回的response并生返回Item对象或者Request对象,或者是一个包含二者的可迭代对象。返回的Request会通过scrapy处理,并交由Downloader下载,并调用设置的回调函数
(3)在回调函数中利用你喜欢的解析工具来解析网页并生成Item
(4)这些生成的Item会经过Itempipelines保存到数据库或者其他你定义的操作
  我们来看看Spider类的源码:

# scrapy.spiders
class Spider(object_ref):
    """Base class for scrapy spiders. All spiders must inherit from this
    class.
    """

    name = None
    custom_settings = None

    def __init__(self, name=None, **kwargs):
        if name is not None:
            self.name = name
        elif not getattr(self, 'name', None):
            raise ValueError("%s must have a name" % type(self).__name__)
        self.__dict__.update(kwargs)
        if not hasattr(self, 'start_urls'):
            self.start_urls = []

    @property
    def logger(self):
        logger = logging.getLogger(self.name)
        return logging.LoggerAdapter(logger, {
   'spider': self})

    def log(self, message, level=logging.DEBUG, **kw):
        """Log the given message at the given log level

        This helper wraps a log call to the logger within the spider, but you
        can use it directly (e.g. Spider.logger.info('msg')) or use any other
        Python logger too.
        """
        self.logger.log(level, message, **kw)

    @classmethod
    def 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值