一文了解Python Scrapy爬虫框架

最新推荐文章于 2022-02-21 15:35:17 发布

fpzRobert

最新推荐文章于 2022-02-21 15:35:17 发布

阅读量446

点赞数 3

分类专栏：网络爬虫文章标签： Scrapy Python爬虫框架分布式爬虫

本文链接：https://blog.csdn.net/Mr_Robert/article/details/88380611

版权

网络爬虫专栏收录该内容

2 篇文章 0 订阅

订阅专栏

一文了解Python Scrapy爬虫框架

一、爬虫定义

网络爬虫（Web crawler）： 是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本，它们被广泛用于互联网搜索引擎或其他类似网站，可以自动采集所有其能够访问到的页面内容，以获取或更新这些网站的内容和检索方式。

从功能上来讲，爬虫一般分为数据采集，数据处理，数据存储三个部分。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足系统的一定停止条件。

二、爬虫的基本流程

发起请求：通过HTTP库向目标站点发起请求，也就是发送一个Request，请求可以包含额外的header等信息，等待服务器响应.
获取响应内容：如果服务器能正常响应，会得到一个Response，Response的内容便是所要获取的页面内容，类型可能是HTML，Json字符串，二进制数据（图片或者视频）等类型.
解析内容：得到的内容可能是HTML，可以用正则表达式，页面解析库进行解析，可能是json，可以直接转换为json对象解析，可能是二进制数据，可以做保存或者进一步的处理.
保存数据：保存形式多样，可以存为文本，也可以保存到数据库，或者保存特定格式的文件.

三、Scrapy简介

Scrapy是用 Python 实现的一个为了爬取网站数据、提取结构性数据而编写的应用框架，常应用在数据挖掘，信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取API所返回的数据或者通用的网络爬虫。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。

四、Scrapy爬虫框架

Python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。

Scrapy使用了 Twisted异步网络库来处理网络通讯。整体架构大致如下：

在这里插入图片描述

Scrapy主要包括以下组件：

Scrapy Engin（引擎）： Scrapy框架的核心，类似于电脑的cpu，负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等；
Scheduler（调度器）： 负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，以便之后引擎请求他们时提供给引擎。类似于cache，将requests请求以队列的形式暂时存储在调度器中以便调用。可以想像成一个URL（抓取网页的网址或者说是链接）的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址。
Downloader（下载器）： 负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spider来处理。
Spiders（爬虫）： 负责处理所有的Response，从特定的网页中中分析并提取自己需要的信息即所谓的实体(Item)。用户也可以从中提取出URL，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器)，以等待执行。
Item Pipeline（管道）： 负责处理爬虫从网页中抽取的实体(Item)，主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。当页面被爬虫解析后，将被发送到项目管道，并经过几个特定的次序处理数据。
Downloader Middlewares（下载器中间件）： 位于Scrapy引擎和下载器之间的框架，主要是处理Scrapy引擎与下载器之间的请求及响应。其提供了一个简便的机制，通过插入自定义代码来扩展Scrapy功能。
Spider Middlewares（Spider中间件）： 介于Scrapy引擎和调度之间的中间件，从Scrapy引擎发送到调度的请求和响应。其提供了一个简便的机制，通过插入自定义代码来扩展Scrapy功能。