Scrapy爬虫流程


在这里插入图片描述

程序执行

  1. 引擎:Spider,你要处理哪一个网站?
  2. Spider:老大,我要处理XX.com
  3. 引擎:你把第一个需要处理的URL给我吧
  4. Spider:给你,XXXX.com
  5. 引擎:调度器,我这里有request请求,帮我排序入队一下
  6. 调度器:好的,马上处理
  7. 引擎:调度器,把你处理好的request请求给我
  8. 调度器:给你,这是我处理好的request请求
  9. 引擎:下载器,你按照老大的下载中间件的设置,帮我下载一下这个request请求
  10. 下载器:好的,给你,这是下载好的东西,(如果失败,这个request下载失败了,然后 引擎告诉调度器,这个请求下载失败了,记录下,等会再下载)
  11. 引擎:Spider,这个是下载好的东西,已经按照下载中间件处理过了,你自己处理下(responses默认是交给def parse()这个函数处理)
  12. Spider:(处理完数据之后对于需要跟进的URL)引擎,我这里有两个结果,这个是我需要跟进的URL,还有这个是我获取的item数据
  13. 引擎:管道,这有个item需要你帮我处理下,调度器,有个需要跟进的URL帮我处理下,然后从第四步循环,知道获取到全部的信息
  14. 管道、调度器:好的,现在就做
    只有当调度器中不存在任何request了,整个程序才会停止,也就是说,对于下载失败的URL,Scrapy也会重新下载

制作Scrapy爬虫四步:

新建项目
明确目标(items.py):明确要抓取的目标
制作爬虫(spider.py):制作爬虫开始爬取网页
存储内容(pipelines.py):设计管道存储爬取的内容

  • 5
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值