5、scrapy框架使用(一)

最新推荐文章于 2024-01-21 17:06:41 发布

T o r

最新推荐文章于 2024-01-21 17:06:41 发布

阅读量246

点赞数

分类专栏： python爬虫学习之路文章标签：爬虫

本文链接：https://blog.csdn.net/qwe863226687/article/details/114116971

版权

本文详细介绍了Scrapy框架的使用，包括其优势、工作流程、组件介绍、数据流及基本命令。Scrapy是一个纯Python开发的爬虫框架，适用于数据挖掘和企业级应用。文章还展示了如何创建Scrapy项目，解析网页数据，使用Item和Pipeline进行数据持久化，以及处理中间件和爬虫中间件。最后，提到了在shell中测试XPath的交互式平台和项目注意事项，如设置ROBOTSTXT_OBEY、请求头和启用Pipeline。

摘要由CSDN通过智能技术生成

Scrapy框架：（与前面所学的相比，scrapy框架应用更加广泛）
简介：（纯python开发的，不含其他语言，改动源码用python语言即可）
Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。
Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试 Scrapy使用了Twisted 异步（未等请求处理完，就会利用好时间处理其他事）网络库来处理网络通讯。

使用原因：
1.为了更利于我们将精力集中在请求与解析上（一般处理反爬问题消耗不少精力，用scrapy能解决不小这类问题）
2.企业级的要求（企业级的框架都是基于scrapy框架进行开发的）

爬取流程和基本的爬虫步骤类似：（自己写的爬虫都要遵循）
1.找到目标数据
2.分析请求流程
3.构造http请求（一般容易遭到反爬机制的阻截，不加请求头就会不断的重定向最后报错）
4.提取数据（xpath和BS4都是对结构化数据（html）提取，如果要对非结构化的提取（比如提取JavaScript里的代码）可以用到和原始方式正则来进行提取）
5.数据持久化

模块安装：
windows下直接下载scrapy的Twisted与其有不兼容，解决起来麻烦
所以可以在anaconda环境下安装

模块简介：
组件介绍
Scrapy Engine(引擎)属于scrapy核心的位置
引擎负责控制系统所有组件之间的数据流，并在发生某些操作时触发事件。

scheduler（调度器)
调度程序接收来自引擎的请求，将它们排入队列，以便稍后引擎请求它们。

Downloader（下载器)
下载程序负责获取web页面并将它们提供给引擎，引擎再将它们提供给spider。

spider（爬虫）
爬虫是由用户编写的自定义的类，用于解析响应，从中提取数据，或其他要抓取的请求。
url 数据

Item pipeline（管道)
管道负责在数据被爬虫提取后进行后续处理。典型的任务包括清理，验证和持久性（如将数据存储在数据库中）

下载中间件：（对请求和响应进行一定的处理）
下载中间件是位于引擎和下载器之间的特定的钩子，它们处理从引擎传递到下载器的请求，以及下载器传递到引擎的响应。
如果你要执行以下操作之一，请使用Downloader中间件：
在请求发送到下载程序之前处理请求（即在scrapy将请求发送到网站之前）
在响应发送给爬虫之前
直接发送新的请求，而不是将收到的响应传递给蜘蛛
将响应传递给爬行器而不获取web页面;
默默的放弃一些请求

爬虫中间件：（与下载中间