Python爬虫-5-scrapy框架-request

最新推荐文章于 2024-08-05 20:06:05 发布

karry_孙二

最新推荐文章于 2024-08-05 20:06:05 发布

阅读量812

点赞数 1

分类专栏： Python爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39620483/article/details/83040277

版权

本文详细介绍了Python的Scrapy爬虫框架，包括其组成组件、安装步骤、基本命令与项目结构。阐述了Scrapy爬虫的创建、执行过程，以及如何处理请求。特别讨论了Scrapy的请求头配置，请求对象的使用，并提供了代码示例，帮助读者理解Scrapy的请求处理机制。

摘要由CSDN通过智能技术生成

Scrapy 介绍

Python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据

特点：数据结构化、分布式

Scrapy主要包括了以下组件：

1）引擎，用来处理整个系统的数据流处理，触发事务。

2）调度器，用来接受引擎发过来的请求，压入队列中，并在引擎再次请求的时候返回。

3）下载器，用于下载网页内容，并将网页内容返回给蜘蛛。

4）蜘蛛，蜘蛛是主要干活的，用它来制订特定域名或网页的解析规则。

5）项目管道，负责处理有蜘蛛从网页中抽取的项目，它的主要任务是清洗、验证和存储数据。当页面被蜘蛛解析后，将被发送到项目管道，并经过几个特定的次序处理数据。

6）下载器中间件，位于Scrapy引擎和下载器之间的钩子框架，主要是处理Scrapy引擎与下载器之间的请求及响应。

7）蜘蛛中间件，介于Scrapy引擎和蜘蛛之间的钩子框架，主要工作是处理蜘蛛的响应输入和请求输出。

8）调度中间件，介于Scrapy引擎和调度之间的中间件，从Scrapy引擎发送到调度的请求和响应。

Scrapy 安装

1.安装步骤

（1）安装依赖包

① 安装lxml

pip install lxml

② 安装Twisted

▲ 安装wheel：pip3 install wheel

▲ 下载Twisted包

• 下载链接：https://www.lfd.uci.edu/~gohlke/pythonlibs/

最低0.47元/天解锁文章

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。