提示:文末有福利!最新Python爬虫资料/学习指南>>戳我直达
文章目录
前言
Scrapy框架简述
Scrapy 是一个为了抓取网页数据、提取结构性数据而编写的应用框架,该框架是封装的,包含 request (异步调度和处理)、下载器(多线程的 Downloader)、解析器(selector)和 twisted(异步处理)等。对于网站的内容爬取,其速度非常快捷。
话不多说,开始学习
Scrapy框架
Scrapy库安装
打开cmd输入pip install scrapy
2、Scrapy爬虫框架结构
5+2结构、数据流
3、Scarpy爬虫框架解析
ENGINE:
控制所有模块之间的数据流。
根据条件触发事件。
不需要用户修改。
DOWNLOADER:
根据请求下载网页。
不需要修改。
SCHEDULER:
对所有爬取请求进行调度管理。
不需要用户修改
DOWNLOADER MIDDLEWARE
downloader和engine两个模块之间的中间键。
目的:实施Engine、Scheduler和Downloader之间进行用户可配置的控制。
功能:修改、丢弃、新增请求或响应。
用户可以编写代码修改。
Spider:
解析Downloader返回的响应(Response)。
产生爬取项(scraped item)。
产生额外的爬取请求(Request)。
需要用户编写配置代码。
Item Pipelines:
以流水线方式处理Spider产生的爬取项。
由一组操作顺序组成,类似流水线,每个操作是一个Item Pipeline类型。
可能操作包括:清理、检验和查重爬取项中的HTML数据、将数据存储到数据库。
需要用户编写配置代码。
Spider Middleware
Spider和Engine之间的中间键。
目的:对请求和爬取项的再处理。
功能:修改、丢弃、新增请求或爬取项。
用户可以编写配置代码。
4、Scrapy爬虫的常用命令
Scrapy命令行(cmd)
startproject
创建一个新工程。
scrapy startproject[dir]
genspider</