Scrapy框架的基本流程

Scrapy框架的操作流程(14部分)

  1. Scrapy引擎从Spider获取起始的Request
  2. Scrapy引擎将获取到的Request发给调度中心排列入队
  3. Scrapy引擎从调度中心请求获取需要处理的Request
  4. Scrapy引擎获取到需处理的Request后,将Request发给下载器
  5. Request在传递给下载器的过程中会经过下载器中间件,对Request进行处理
  6. 下载器根据Request从Internet从下载内容,封装成Request对象传递给Scrapy引擎
  7. 下载器将Response传递给Scrapy引擎时,也会经过下载器中间件,对Request进行处理
  8. Scrapy引擎将接收到的Response传递给Spider进行处理
  9. Response传递给Spider的过程中,会经过Spider中间件,对Response进行处理。
    10.Spider接收Response,处理完之后会生成一个包含需要继续爬取网址的Response和一个Item对象组成的result,将其中的item发送给ITem pipeline进行处理,将其中的Requset发给调度器排列入队列

实例:北京链家二手房信息爬取流程

  1. 创建项目
  2. 使用模板来创建爬虫文件
  3. 创建项目之后,编写items 文件 设置需要抓取的内容
  4. 编写好items以后,然后编写pipelines,这里主要编写两个方法,一个用来保存数据,另一个用于图片处理。
  5. 在setting中激活pipeline,设置图片储存信息,MongoDB数据库信息,还有一点要注意,REBOTSTXT——OBEY的属性改为Flase
  6. 编写爬虫文件,其中的Rule要追踪终每条房屋信息的详情页面
  7. 运行爬虫,运行完之后再Pycharm中查看爬取到的数据
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值