2.26 scrapy学习笔记之二

最新推荐文章于 2024-02-03 12:53:02 发布

王伟喆prototype

最新推荐文章于 2024-02-03 12:53:02 发布

阅读量154

点赞数

本文链接：https://blog.csdn.net/weixin_41593821/article/details/87936700

版权

第二章编写spider

编写spider

scrapy底下有各种组件，这些组件的功能各不相同，但是最为核心的组件确是spider
request和response是HTTP协议当中的术语，即HTTP请求和HTTP响应，scrapy框架中定义了相应的Request和Response类，这里的Item代表Spider从页面中爬取对的一项数据
简要说一下几种对象的流动过程
3.1Spider根据url构造response对象，提交给engine
3.2request对象随后进入scheduler按某种算法排队，之后时刻scheduler将其送往downloader
3.3downloader根据url发送HTTP请求到网站服务器，然后获得反馈response，包含页面的html文本
3.4response对象递交给spider的解析函数，从页面解析数据封装成Item提交给engine，item之后送往Item Pipelines处理，最终可能由exporter将数据写入文件；另一方面，页面解析函数还从页面中提取链接url，构造新的request提交给engine
在爬虫当中第一步是构造request，这一步用到的函数实际上就是内在文件的
init.py当中的内在函数start_requests(self)
在第6步时，需要向spiders软件返回response，这里用到的函数是parse，如果没有定义parse，在scrapy当中的默认parse会返回一个错误，所以parse需要我们自己写

关注