爬虫——Scrapy框架 (初步学习+简单案例)

枫丶桦

已于 2023-06-09 19:00:37 修改

阅读量1.8k

点赞数

文章标签： scrapy 学习 python

于 2023-06-09 18:56:06 首次发布

本文链接：https://blog.csdn.net/qq_53715682/article/details/131130811

版权

本文介绍了Scrapy框架的基本用途、核心组件及结构，并提供了安装步骤和创建项目的简单实例。Scrapy是一个用于数据抓取的高效爬虫框架，适用于数据挖掘和自动化测试。文章详细讲解了Engine、Scheduler、Item、Spider、Downloader、Item Pipeline和中间件等关键概念，以及Scrapy项目的基本文件结构。最后，通过创建项目和编写简单的爬虫代码，展示了如何启动和运行Scrapy爬虫。

摘要由CSDN通过智能技术生成

1.scrapy基本用途:

2.结构：

3.scrapy文件结构（示例：game）

一、Scrapy框架

1.scrapy基本用途:

Scrapy是一个快速、高效率的网络爬虫框架，用于抓取web站点并从页面中提取结构化的数据。 Scrapy被广泛用于数据挖掘、监测和自动化测试。

2.结构：

1. Engine（引擎）：用来处理整个系统的数据流和时间，是整个框架的核心，可以理解为中央处理器，负责数据的流转和逻辑的处理。
2. Scheduler（调度器）：接收Engine发过来的request并将其加入队列中，也可发回Engine，供给Downloader执行，主要维护request的调度逻辑
3. Item：是抽象的数据结构。定义了爬取结果的数据结构，爬取的结果会被赋值成Item对象，每个Item都是一个类，类里面定义了爬取结果的数据字段，可以理解为用来规定数据的存储格式。
4. Spiders（爬虫）：负责解析Responses并生成Item和新的请求，然后发给Engine进行处理。
5. Downloader（下载器）：负责下载Engine发送的所有请求，将获取的Response返回给Engine，再发给Spiders处理。
6. Item Pipelinses（管道）：负责Spiders从页面中抽取的Item，做数据清洗、验证、存储等工作

最低0.47元/天解锁文章

枫丶桦

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
爬虫——Scrapy框架 (初步学习+简单案例)

定义了爬取结果的数据结构，爬取的结果会被赋值成Item对象，每个Item都是一个类，类里面定义了爬取结果的数据字段，可以理解为用来规定数据的存储格式。5. Downloader（下载器）：负责下载Engine发送的所有请求，将获取的Response返回给Engine，再发给Spiders处理。1. Engine（引擎）：用来处理整个系统的数据流和时间，是整个框架的核心，可以理解为中央处理器，负责数据的流转和逻辑的处理。steam 用户创建的文件，定义爬取的url以及对数据的处理。
复制链接

扫一扫