python scrapy入门1

最新推荐文章于 2024-03-26 19:37:01 发布

Jxufe渣渣斯

最新推荐文章于 2024-03-26 19:37:01 发布

阅读量181

点赞数

原文链接：https://www.jqhtml.com/13432.html

版权

友情链接：
（1）Scrapy爬虫入门教程十三 Settings（设置）
https://www.jianshu.com/p/df9c0d1e9087

（2）python3_scrapy包Field类方法及属性剖析、字典（dict）类方法及属性剖析
https://blog.csdn.net/admin_maxin/article/details/80015682

（3）Scrapy抓取Ajax动态页面
https://www.jianshu.com/p/1e35bcb1cf21

（4）Python之Scrapy爬虫框架入门实例（一）
https://www.cnblogs.com/zhuxr/p/8729320.html

（5）独家 | 手把手教你用scrapy制作一个小程序 !（附代码）
https://cloud.tencent.com/developer/article/1032153

一. 前言

Scrapy是用于Python开发的一个快速,高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。

有爬虫爱好者认为scrapy的优点是自定义程度高，适合学习研究爬虫技术，要学习的相关知识也较多，故而完成一个爬虫的时间较长。也有人表示，scrapy在python3上面无法运行，适用度没有想象的那么广阔。

网络爬虫通俗来说，就是一个在网上到处或定向抓取数据的程序，更专业的描述就是，抓取特定网站网页的HTML数据。抓取网页的一般方法是，定义一个入口页面，然后一般一个页面会有其他页面的URL，于是从当前页面获取到这些URL加入到爬虫的抓取队列中，然后进入到新页面后再递归的进行上述的操作。

二. 原理

Scrapy 使用 Twisted这个异步网络库来处理网络通讯，架构清晰，并且包含了各种中间件接口，可以灵活的完成各种需求。

在我们初次尝试去理解scrapy的结果和运行原理的时候，会用这样图表的介绍：
在这里插入图片描述
2.1 爬取流程

上图绿线是数据流向，首先从初始URL开始，Scheduler会将其交给Downloader进行下载，下载之后会交给Spider进行分析，Spider分析出来的结果有两种：一种是需要进一步抓取的链接，例如之前分析的“下一页”的链接，这些东西会被传回Scheduler；另一种是需要保存的数据，它们则被送到Item Pipeline那里，那是对数据进行后期处理（详细分析、过滤、存储等）的地方。另外，在数据流动的通道里还可以安装各种中间件，进行必要的处理。

2.2 各部块的解释

引擎(Scrapy Engine)：用来处理整个系统的数据流处理，触发事务。
调度器(Scheduler)：用来接受引擎发过来的请求，压入队列中，并在引擎再次请求的时候返回。

下载器(Downloader)：用于下载网页内容，并将网页内容返回给蜘蛛。
蜘蛛(Spiders)：蜘蛛是主要干活的，用它来制订特定域名或网页的解析规则。编写用于分析response并提取item(即获取到的item)或额外跟进的URL的类。每个spider负责处理一个特定(或一些)网站。

项目管道(Item Pipeline)：负责处理有蜘蛛从网页中抽取的项目，他的主要任务是清晰、验证和存储数据。当页面被蜘蛛解析后，将被发送到项目管道，并经过几个特定的次序处理数据。

下载器中间件(Downloader Middlewares)：位于Scrapy引擎和下载器之间的钩子框架，主要是处理Scrapy引擎与下载器之间的请求及响应。
蜘蛛中间件(Spider Middlewares)：介于Scrapy引擎和蜘蛛之间的钩子框架，主要工作是处理蜘蛛的响应输入和请求输出。

调度中间件(Scheduler Middlewares)：介于Scrapy引擎和调度之间的中间件，从Scrapy引擎发送到调度的请求和响应。

2.3 scrapy数据流的分析

步骤如下：

STEP 1: 引擎打开一个网站(open a domain)，找到处理该网站的Spider并向该spider请求第一个要爬取的URL(s)。

STEP 2: 引擎从Spider中获取到第一个要爬取的URL并在调度器(Scheduler)以Request调度。

STEP 3: 引擎向调度器请求下一个要爬取的URL。

STEP 4: 调度器返回下一个要爬取的URL给引擎，引擎将URL通过下载中间件(请求(request)方向)转发给下载器(Downloader)。

STEP 5: 一旦页面下载完毕，下载器生成一个该页面的Response，并将其通过下载中间件(返回(response)方向)发送给引擎。

STEP 6: 引擎从下载器中接收到Response并通过Spider中间件(输入方向)发送给Spider处理。

STEP 7: Spider处理Response并返回爬取到的Item及(跟进的)新的Request给引擎。

STEP 8: 引擎将(Spider返回的)爬取到的Item给Item Pipeline，将(Spider返回的)Request给调度器。

STEP 9: (从第二步)重复直到调度器中没有更多地request，引擎关闭该网站。

在这里插入图片描述
（5）Scrapy入门实例2：爬取简书网热门专题信息(动态网页，双重Ajax接口)
https://blog.csdn.net/qq_43391383/article/details/86910782

（6）scrapy实战2，使用内置的xpath，re和css提取值
https://www.cnblogs.com/regit/p/9629263.html

xpath常用规则如下：
// 从当前节点选取子孙节点，如果符号前面没路径，表示整个文档
/ 从当前节点选取直接子节点
. 选取当前节点
… 选取当前节点父节点
@ 选取属性
//* 整个HTML文本中的所有节点

（7）如何写第一个scrapy
https://blog.csdn.net/f156207495/article/details/81298213

（8）Scrapy：运行爬虫程序的方式
https://www.cnblogs.com/luo630/p/9262486.html

（9）Python爬虫(13):Scrapy实战抓取网易云音乐（精品！！！）
https://www.jqhtml.com/13432.html

Jxufe渣渣斯

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python scrapy入门1

友情链接：（1）Scrapy爬虫入门教程十三 Settings（设置）https://www.jianshu.com/p/df9c0d1e9087（2）python3_scrapy包Field类方法及属性剖析、字典（dict）类方法及属性剖析https://blog.csdn.net/admin_maxin/article/details/80015682（3）Scrapy抓取Ajax动...
复制链接

扫一扫