python之scrapy(一)基础和入门

最新推荐文章于 2024-06-22 16:33:22 发布

OceanProo

最新推荐文章于 2024-06-22 16:33:22 发布

阅读量378

点赞数 1

分类专栏： python 爬虫

本文链接：https://blog.csdn.net/YeChao3/article/details/83745101

版权

本文介绍了Scrapy网络爬虫框架的基础知识，包括其架构、数据流过程、安装步骤和简单项目实战。Scrapy是一个基于Twisted的Python爬虫框架，适用于数据挖掘和信息处理。文章详细讲解了如何在Windows和Ubuntu上安装Scrapy，创建项目、Spider、Item，以及解析Response和使用Item Pipeline进行数据处理和存储。

摘要由CSDN通过智能技术生成

Scrapy框架的使用

一、 Scrapy框架的介绍

Scrapy是一个基于 Twisted 异步处理的框架，是一个纯python的网络爬虫框架，是一个为了爬取网站数据，提取结构性数据而编写的应用框架。其可以应用在数据挖掘，信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取API所返回的数据或者通用的网络爬虫。

Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。

1.1 框架介绍

Scrapy基于事件驱动网络框架 Twisted 编写。因此，Scrapy基于并发性考虑由非阻塞(即异步)的实现。我们先看看Scrapy的框架的架构图：

主要有以下组件：

Scrapy Engine：引擎负责控制数据流在系统中所有组件中流动，并在相应动作发生时触发事件。详细内容查看下面的数据流(Data Flow)部分。
Scheduler：调度器从引擎接受request并将他们入队，以便之后引擎请求他们时提供给引擎。
Downloader：下载器负责获取页面数据并提供给引擎，而后提供给spider。
Spiders：Spider是Scrapy用户编写用于分析response并提取item(即获取到的item)或额外跟进的URL的类。每个spider负责处理一个特定(或一些)网站。
Item Pipeline：Item Pipeline负责处理被spider提取出来的item。典型的处理有清理、验证及持久化(例如存取到数据库中)。
Downloader middlewares：下载器中间件是在引擎及下载器之间的特定钩子，处理Downloader传递给引擎的response。其提供了一个简便的机制，通过插入自定义代码来扩展Scrapy功能。

1.2 数据流

Scrapy中的数据流由执行引擎控制，其过程如下:

引擎打开一个网站(open a domain)，找到处理该网站的Spider并向该spider请求第一个要爬取的URL(s)。
引擎从Spider中获取到第一个要爬取的URL并在调度器(Scheduler)以Request调度。
引擎向调度器请求下一个要爬取的URL。
调度器返回下一个要爬取的URL给引擎，引擎将URL通过下载中间件(请求(req

最低0.47元/天解锁文章

OceanProo

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python之scrapy(一)基础和入门

Scrapy框架的使用一、 Scrapy框架的介绍Scrapy是一个基于 Twisted 异步处理的框架，是一个纯python的网络爬虫框架，是一个为了爬取网站数据，提取结构性数据而编写的应用框架。其可以应用在数据挖掘，信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取API所返回的数据或者通用的网络爬虫。Scrap...
复制链接

扫一扫

专栏目录