python爬虫从0到1-Scrapy框架的介绍

2401_84004078

于 2024-04-21 13:24:08 发布

阅读量539

点赞数 7

分类专栏：程序员文章标签： python 爬虫 scrapy

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_84004078/article/details/138031510

版权

程序员专栏收录该内容

276 篇文章 0 订阅

订阅专栏

- （1）创建爬虫的项目
（2）创建爬虫的文件
（3）执行爬虫文件
（五）Scrapy中response的属性和方法
- 1.获取响应的字符串
2.获取二进制数据
3.利用xpath获取内容
4.获取seletor对象的属性值
5.获取seletor列表的第一个数据

前言

=====================================================================

现在我们进入一个框架的学习，利用好这个框架，我们可以更快速，更方便的获取到网页上的内容和我们想要的数据。这个框架就是Scrapy框架。

（一）什么是Scrapy

===============================================================================

Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。

（二）基本功能

==========================================================================

Scrapy是一个适用爬取网站数据、提取结构性数据的应用程序框架，它可以应用在广泛领域：Scrapy 常应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。通常我们可以很简单的通过 Scrapy 框架实现一个爬虫，抓取指定网站的内容或图片。

（三）基本架构

==========================================================================

下面是scrapy框架的官方架构图。绿色箭头为数据流向。

在这里插入图片描述

Scrapy Engine(引擎)：负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。

Scheduler(调度器)：它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。

Downloader（下载器）：负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给ScrapyEngine(引擎)，由引擎交给Spider来处理。

Spider（爬虫）：它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器)。

Item Pipeline(管道)：它负责处理Spider中获取到的Item，并进行进行后期处理（详细分析、过滤、存储等）的地方。

Downloader Middlewares（下载中间件）：一个可以自定义扩展下载功能的组件。

Spider Middlewares（Spider中间件）：一个可以自定扩展和操作引擎和Spider中间通信的功能组件。

（四）Scrapy框架的基本使用

===================================================================================

当我们用scrapy框架创建一个项目的时候我们都需要在控制台（终端）输入命令来创建/执行一个项目或者一个爬虫文件。

（1）创建爬虫的项目

在终端输入创建项目的指令

scrapy startproject 项目的名字

注：项目的名字不可以由数字开头或者带有中文！

实例：

在这里插入图片描述

（2）创建爬虫的文件

这里需要在spiders文件夹中创建爬虫文件，所以在创建爬虫文件前需要将目录转换到spiders目录下

cd 项目的名字\项目的名字\spiders

随后创建爬虫文件

scrapy genspiders 爬虫文件的名字爬取的网页

实例：

在这里插入图片描述

（3）执行爬虫文件

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数Python工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年Python开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上前端开发知识点，真正体系化！

由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新

如果你觉得这些内容对你有帮助，可以扫码获取！！！（备注：Python）

习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上前端开发知识点，真正体系化！**

由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新

如果你觉得这些内容对你有帮助，可以扫码获取！！！（备注：Python）

关注

7
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
python爬虫从0到1-Scrapy框架的介绍

Downloader（下载器）：负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给ScrapyEngine(引擎)，由引擎交给Spider来处理。Spider（爬虫）：它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器)。现在我们进入一个框架的学习，利用好这个框架，我们可以更快速，更方便的获取到网页上的内容和我们想要的数据。（一）什么是Scrapy。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。