scrapy框架简单了解

最新推荐文章于 2024-08-24 16:34:34 发布

秋瑾先生

最新推荐文章于 2024-08-24 16:34:34 发布

阅读量179

点赞数

分类专栏： 2019寒假文章标签： scrapy框架

本文链接：https://blog.csdn.net/dldl1718/article/details/87349290

版权

24 篇文章 0 订阅

订阅专栏

scrapy:是一个遍历爬行网站，分析获取数据而设计的应用程序框架，原本设计用于屏幕抓取（网络抓取）也可以用来访问api来提取数据；广泛应用与数据挖掘、信息处理、历史片打包等等。

在这里插入图片描述
Engine:不需要用户修改

Downloader:不需要用户修改

Scheduler：不需要用户修改

Downloader Middleware：

目的： 实施Engine，Scheduler和Downloader之间进行用户可配置的控制。

功能： 修改、丢弃、新增请求响应

可以编写配置代码，一般用户不对requests或response进行修改，不需要编写配置代码

Spider:

需要用户编写配置代码

Item Pipelines

需要用户编写配置文件

Spider Middleware：

目的： 对用户和爬取项的再处理

功能： 修改、丢弃、新增请求响应或爬取项

用户可编写配置代码

爬去大量网页建议采用scrapy框架
小请求爬取，建议requests
周期性，对爬取结果进行积累建议scrapy框架
定制程度高，建议自行搭建框架，requests>scrapy
scrapy命令行
在cmd中输入scrapy -h查看scrapy命令行
在这里插入图片描述

命令	说明	格式
startproject	创建新工程	scrapy startproject < name >[ dir ]
genspider	创建爬虫	scrapy genspider [ options ] < name > < domain >
settings	获得爬虫配置信息	scrapy settings [ options ]
crawl	运行爬虫	scrapy crawl < spider >
list	列出工程中所有爬虫	scrapy list
shell	启动url调试命令行	scrapy shell [ url ]