立即学习:https://edu.csdn.net/course/play/8147/167097?utm_source=blogtoedu
Scrapy框架:
介绍: Scrapy框架是有Python语言开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据
用途:数据挖掘、检测、自动化测试
Scrapy运行原理:
Scrapy的原理:
1. 从Spider类开始调度,初始化请求的URL地址;
2. 初始化之后的URL地址将会经由引擎送到调度器当中
3. 调度器接收后将其封装成requests交由Downloader Middlewares再交给Downloader下载
4. 下载完成后,Downloader会返回Response,Response会经由两个Middlewares交给Spiders
5.Spiders接收到Response将会解析数据、清洗数据。并将解析后的数据封装成Items发送到Item Pipeline
6. Item Pipeline接收到数据之后就可以进行数据的处理和储存