Scrapy(爬虫框架)中，Spider类中parse()方法的工作机制

最新推荐文章于 2025-02-28 09:00:00 发布

好好生活ying

最新推荐文章于 2025-02-28 09:00:00 发布

阅读量7.8k

点赞数 2

分类专栏：网络爬虫 scrapy框架文章标签： scrapy框架网络爬虫 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42281826/article/details/81017402

版权

网络爬虫同时被 2 个专栏收录

5 篇文章

订阅专栏

4 篇文章

订阅专栏

parse(self,response):当请求url返回网页没有指定回调函数，默认的Request对象的回调函数，用来处理网页返回的response，和生成的Item或者Request对象

以下分析一下parse（）方法的工作机制：

1.因为使用的yield，而不是return，parse函数将会当做一个生成器使用，scrapy会注意调用parse方法中生成的结果，并且判断该结果是一个什么样的类型

2.如果是request则会加入爬取队列中，如果是item类型则会使用pipeline处理，其他类型则会返回错误信息

3.scrapy取到第一部分的request不会立马就去发送request，只是将这个request放到队列中，然后接着从生成器中获取

4.取完了第一部分的request，然后再获取第二部分的item，取到item了，就会放到对应的pipeline中处理

5.parse方法作为回调函数（callback），赋值给Request,指定parse()方法处理这些请求scrapy.Request(url,callback=self.parse)

6.Request对象经过调度，执行生成scrapy.http.response()响应对象，并送回parse()方法，直到调度器中没有Requset（递归的思路）

7.取尽之后，parse()工作结束，引擎再根据对列和pipeline中的内容去执行相应的操作

8.程序在取得各个页面的items前，会先处理完之前所有的request对列的请求，然后再提取items

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。