Python爬虫(入门+进阶)学习笔记 2-1 爬虫工程化及Scrapy框架初窥

本文介绍了Python作为爬虫语言的优势以及爬虫工程化的重要性,特别是深入探讨了Scrapy框架的工作流程。内容包括Scrapy的组件作用、与Requests+Xpath的区别,强调了Scrapy在数据抓取和解析速度上的优势。此外,还提及了Python基础的迭代器、生成器和面向对象编程的重要性。
摘要由CSDN通过智能技术生成

本章节将会系统地介绍如何通过Scrapy框架把爬虫工程化。本节主要内容是:简单介绍Python和爬虫的关系,以及将要使用的Scrapy框架的工作流程。

Python适合做爬虫的原因

  1. 语言本身简单,适合敏捷开发
  2. 有比较完善的工具链
  3. 足够灵活,以应对各种突然状况

爬虫的知识体系

  1. 前端相关知识:html,css,js;浏览器相关知识;
  2. 各种数据库的运用;
  3. http协议的了解;
  4. 对于前后台联动的方案;

爬虫进阶的工作流程

Scrapy运行流程:

  1. Spiders发送第一个URL给引擎
  2. 引擎从Spider中获取到第一个要爬取的URL后,在调度器(Scheduler)以Request调度
  3. 调度器把需要爬取的request返回给引擎
  4. 引擎将request通过下载中间件发给下载器(Downloader)去互联网下载数据
  5. 一旦数据下载完毕,下载器获取由互联网服务器发回来的Response,并将其通过下载中间件发送给引擎
  6. 引擎从下载器中接收到Response并通过Spider中间件发送给Spider处理
  7. Spider处理Response并从中返回匹配到的Item及(跟进的)新的Request给引擎
  8. 引擎将(Spider返回的)爬取到的Item给Item Pipeline做数据处理或者入库保存,将(Spider返回的)Request给调度器入队列
  9. (从第三步)重复直到调度器中没有更多的request

补充资料

什么是Scrapy框架?

<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值