2.26 scrapy学习笔记 之二


第二章 编写spider

编写spider

scrapy 框架结构及工作原理

  1. scrapy底下有各种组件,这些组件的功能各不相同,但是最为核心的组件确是spider

  2. request和response是HTTP协议当中的术语,即HTTP请求和HTTP响应,scrapy框架中定义了相应的Request和Response类,这里的Item代表Spider从页面中爬取对的一项数据

  3. 简要说一下几种对象的流动过程
    3.1Spider根据url构造response对象,提交给engine
    3.2request对象随后进入scheduler按某种算法排队,之后时刻scheduler将其送往downloader
    3.3downloader根据url发送HTTP请求到网站服务器,然后获得反馈response,包含页面的html文本
    3.4response对象递交给spider的解析函数,从页面解析数据封装成Item提交给engine,item之后送往Item Pipelines处理,最终可能由exporter将数据写入文件;另一方面,页面解析函数还从页面中提取链接url,构造新的request提交给engine

  4. 在爬虫当中第一步是构造request,这一步用到的函数实际上就是内在文件的
    init.py当中的内在函数start_requests(self)
    在第6步时,需要向spiders软件返回response,这里用到的函数是parse,如果没有定义parse,在scrapy当中的默认parse会返回一个错误,所以parse需要我们自己写

上机作业

  1. 在百度淘宝,将网页中间下载信息,试着爬一下,
  2. 爬完以后将文件夹打一个包,写一个word文档作为报告用的xpath或者css说明
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值