2.26 scrapy学习笔记 之二
第二章 编写spider
编写spider
scrapy 框架结构及工作原理
-
scrapy底下有各种组件,这些组件的功能各不相同,但是最为核心的组件确是spider
-
request和response是HTTP协议当中的术语,即HTTP请求和HTTP响应,scrapy框架中定义了相应的Request和Response类,这里的Item代表Spider从页面中爬取对的一项数据
-
简要说一下几种对象的流动过程
3.1Spider根据url构造response对象,提交给engine
3.2request对象随后进入scheduler按某种算法排队,之后时刻scheduler将其送往downloader
3.3downloader根据url发送HTTP请求到网站服务器,然后获得反馈response,包含页面的html文本
3.4response对象递交给spider的解析函数,从页面解析数据封装成Item提交给engine,item之后送往Item Pipelines处理,最终可能由exporter将数据写入文件;另一方面,页面解析函数还从页面中提取链接url,构造新的request提交给engine -
在爬虫当中第一步是构造request,这一步用到的函数实际上就是内在文件的
init.py当中的内在函数start_requests(self)
在第6步时,需要向spiders软件返回response,这里用到的函数是parse,如果没有定义parse,在scrapy当中的默认parse会返回一个错误,所以parse需要我们自己写
上机作业
- 在百度淘宝,将网页中间下载信息,试着爬一下,
- 爬完以后将文件夹打一个包,写一个word文档作为报告用的xpath或者css说明