从源码开始学习Scrapy系列09-parse指令

最新推荐文章于 2023-07-20 14:49:22 发布

VIP文章风中追风风

最新推荐文章于 2023-07-20 14:49:22 发布

阅读量572

点赞数

分类专栏： scrapy 从源码开始学习Scrapy 文章标签： scrapy

本文链接：https://blog.csdn.net/wang1472jian1110/article/details/80393406

版权

前言

parse指令用于返回requests和items对象，可用于一个爬虫的单元测试，检验抓取结果（注意：这里当你使用一个不存在的domain时候scrapy parse http://www.baidu.com，会抛出异常，这里是可选的源码解决方案点击打开链接）

代码调试

进入parse模块的run方法

初始化spidercls对象

self.set_spidercls(url, opts)

def set_spidercls(self, url, opts):
    spider_loader = self.crawler_process.spider_loader
    if opts.spider:
        try:
            self.spidercls = spider_loader.load(opts.spider)
        except KeyError:
            logger.error('Unable to find spider: %(spider)s',
                         {
 'spider': opts.spider})
    else:
        self.spidercls = spidercls_for_request(spider_loader, Request(url))
        if not self.spidercls:
            logger.error('Unable to find spider for: %(url)s',
                         {
 'url': url})

    # Request requires callback argument as callable or None, not string
    request = Request(url, None)
    #

最低0.47元/天解锁文章

风中追风风

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
从源码开始学习Scrapy系列09-parse指令

前言parse指令用于返回requests和items对象，可用于一个爬虫的单元测试，检验抓取结果代码调试进入parse模块的run方法初始化spidercls对象self.set_spidercls(url, opts)def set_spidercls(self, url, opts): spider_loader = self.crawler_process.spider_loade...
复制链接

扫一扫