Scrapy作业——第二章复述,章节练习

第二章

  1. 首先是Scrapy的工作流程分析
    在这里插入图片描述
  • spider要爬取某URL地址的页面时,首先利用spiders构建一个request对象,提交给engine
  • request对象随后进入scheduler按照算法进行排队,之后的某个时刻scheduler将其出队,送往downloader
  • downloader根据request对象中的url地址发送HTTP请求到网站服务器,之后用服务器返回的http响应构造出一个response对象,其中包含页面的html文本
  • response对象最终会被递送给spider的页面解析函数(构造request对象时指定)进行处理,页面解析函数从页面中提取数据,封装成item后提交给engine,item之后被送往item pipeline进行处理,最终可能由exporter以某种数据格式写入文件(csv,json);另一方面,页面解析函数还能从页面中提取链接(URL),构造出新的request对象提交给engine
  1. 然后是Request对象和Response对象的说明和利用,以此到了Spider的开发流程
    回到本章主题“编写Spider”,实现一个Spider子类的过程很像是完成一系列填空题

回答几个爬虫最重要的逻辑

  • 爬虫从哪些页面开始?
  • 已下载页面,提取哪些数据?
  • 爬完当前页面,接下来爬什么页面?

回答好上面三个问题之后,一个爬虫也就开发出来了。

然后爬虫的四个步骤就知道了

一、继承scrapy.Spider
二、为Spider取名
三、设定起始爬取点
四、实现页面解析函数
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值