python爬虫从0到1-Scrapy框架的介绍

最新推荐文章于 2024-05-14 13:50:26 发布

理想程序员二号

最新推荐文章于 2024-05-14 13:50:26 发布

阅读量298

点赞数 9

分类专栏：程序员文章标签： python 爬虫 scrapy

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_60749700/article/details/138343757

版权

程序员专栏收录该内容

187 篇文章 1 订阅

订阅专栏

Scheduler(调度器)：它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。

Downloader（下载器）：负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给ScrapyEngine(引擎)，由引擎交给Spider来处理。

Spider（爬虫）：它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器)。

Item Pipeline(管道)：它负责处理Spider中获取到的Item，并进行进行后期处理（详细分析、过滤、存储等）的地方。

Downloader Middlewares（下载中间件）：一个可以自定义扩展下载功能的组件。

Spider Middlewares（Spider中间件）：一个可以自定扩展和操作引擎和Spider中间通信的功能组件。

（四）Scrapy框架的基本使用

===================================================================================

当我们用scrapy框架创建一个项目的时候我们都需要在控制台（终端）输入命令来创建/执行一个项目或者一个爬虫文件。

（1）创建爬虫的项目

在终端输入创建项目的指令

scrapy startproject 项目的名字

注：项目的名字不可以由数字开头或者带有中文！

实例：

在这里插入图片描述

（2）创建爬虫的文件

这里需要在spiders文件夹中创建爬虫文件，所以在创建爬虫文件前需要将目录转换到spiders目录下

cd 项目的名字\项目的名字\spiders

随后创建爬虫文件

scrapy genspiders 爬虫文件的名字爬取的网页

实例：

在这里插入图片描述

（3）执行爬虫文件

同样，运行爬虫文件时，也是需要在终端上输入指令的

scrapy crawl 爬虫文件的名字

实例：

在这里插入图片描述

**注：在执行爬虫文件的时候，存在robot协议即君子协议。每个网站都制定了君子协议，使得不能让其他网站爬取网页数据，因此我们需要在配置文件中将robot协议注释掉才可以获得网页内容。

在这里插入图片描述 **

（五）Scrapy中response的属性和方法

===========================================================================================

1.获取响应的字符串

response.text

2.获取二进制数据

response.body

3.利用xpath获取内容

直接利用xpath语法来解析response中的内容

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里无偿获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

理想程序员二号

关注

9
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
python爬虫从0到1-Scrapy框架的介绍

Downloader（下载器）：负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给ScrapyEngine(引擎)，由引擎交给Spider来处理。Spider（爬虫）：它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器)。Item Pipeline(管道)：它负责处理Spider中获取到的Item，并进行进行后期处理（详细分析、过滤、存储等）的地方。
复制链接

扫一扫

专栏目录

普通网友 CSDN认证博客专家 CSDN认证企业博客

码龄3年

609: 原创

-: 周排名

2314: 总排名

39万+: 访问

: 等级

1万+: 积分

5882: 粉丝

8683: 获赞

16: 评论

8811: 收藏

私信

关注

热门文章

分类专栏

最新评论

VMware Workstation Pro 17虚拟机超级详细搭建（含redis，nacos，docker, rabbitmq，sentinel，elasticsearch
专家-百锦再: 这篇文章的亮点在于作者对复杂问题的深入剖析，特别是在第二节中提到的潜在解决方案。这些方案不仅涵盖了各个层面的考虑，而且给出了可行的实施建议。这种全面性和可操作性使得这篇文章非常有价值。
docker buildx 构建arm64架构镜像_docker buildx 创建arm镜像(2)
专家-百锦再: 这篇文章对于某个主题做出了深入的探讨，但我认为在一些关键点上还可以提供更多的支持性证据或案例，以增强文章的可信度和说服力。此外，对于某些概念的定义可以更加明确一些，以便读者更好地理解文章的核心观点。
35岁想转行做程序员，Java、python或者哪一门编程语言适合入门？_三十五岁学哪种语言编程
专家-百锦再: 作者的写作风格很引人入胜，每个段落都能够清晰地传达作者的观点。尤其是在描述实际案例时，作者运用生动的词语和形象的比喻，让读者如同身临其境。这种融合了事实和情感的写作风格真正打动了我。
3000W个程序员晕了，python学了有什么用？_学习python有什么用(2)
专家-百锦再: 这篇文章对于某个主题做出了深入的探讨，但我认为在一些关键点上还可以提供更多的支持性证据或案例，以增强文章的可信度和说服力。此外，对于某些概念的定义可以更加明确一些，以便读者更好地理解文章的核心观点。
【Python 百练成钢】报时助手、成绩分析、购物清单、字符串对比
普通网友: 文章构思巧妙，结构紧凑，既有深度又有广度，读后让人受益匪浅，确实是一篇值得一读的佳作。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。