Python爬虫 - 理解深度优先和广度优先

最新推荐文章于 2024-08-18 23:40:08 发布

飞向天空的鹰

最新推荐文章于 2024-08-18 23:40:08 发布

阅读量5.2k

点赞数 3

分类专栏： Linux 文章标签：深度优先广度优先爬虫

本文链接：https://blog.csdn.net/weixin_42277380/article/details/97760768

版权

Linux 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

爬虫有三大策略——深度优先，广度优先以及不重复抓取

在爬虫系统中，待抓取URL队列是很重要的一部分，待抓取URL队列中的URL以什么样的顺序排队列也是一个很重要的问题，因为这涉及到先抓取哪个页面，后抓取哪个页面。而决定这些URL排列顺序的方法，叫做抓取策略。下面是常用的两种策略：深度优先、广度优先。

图1

深度优先

深度优先是指网络爬虫会从起始页开始，一个链接一个链接跟踪下去，处理完这条线路之后再转入下一个起始页，继续追踪链接，通过图一进行理解。

深度优先遍历原理：对每一个可能的分支路径深入到不能再深入为止，而且每个结点只能访问一次。要特别注意的是，二叉树的深度优先遍历比较特殊，可以细分为先序遍历、中序遍历、后序遍历（我们前面使用的是先序遍历）

深度优先它在图一的爬取的顺序： A-B-D-E-I-C-F-G-H (递归实现)

注：scrapy默认采用的是深度优先算法

深度优先算法的实现（伪代码）：

广度优先

广度优先，有人也叫宽度优先，是指将新下载网页发现的链接直接插入到待抓取URL队列的末尾，也就是指网络爬虫会先抓取起始页中的所有网页，然后在选择其中的一个连接网页，继续抓取在此网页中链接的所有网页。

广度优先遍历原理：又叫层次遍历，从上往下对每一层依次访问，在每一层中，从左往右（也可以从右往左）访问结点，访问完一层就进入下一层，直到没有结点可以访问为止。

广度优先在图一的的爬取顺序为：A-B-C-D-E-F-G-H-I (队列实现)

广度优先代码的实现（伪代码）：

两者优缺点：

　　深度优先搜素算法：不全部保留结点，占用空间少；有回溯操作(即有入栈、出栈操作)，运行速度慢。

广度优先搜索算法：保留全部结点，占用空间大；无回溯操作(即无入栈、出栈操作)，运行速度快。

　　通常深度优先搜索法不全部保留结点，扩展完的结点从数据库中弹出删去，这样，一般在数据库中存储的结点数就是深度值，因此它占用空间较少。所以，当搜索树的结点较多，用其它方法易产生内存溢出时，深度优先搜索不失为一种有效的求解方法。

　　广度优先搜索算法，一般需存储产生的所有结点，占用的存储空间要比深度优先搜索大得多，因此，程序设计中，必须考虑溢出和节省内存空间的问题。但广度优先搜索法一般无回溯操作，即入栈和出栈的操作，所以运行速度比深度优先搜索要快些。

爬虫深度优先搜索优点是能遍历一个Web 站点或深层嵌套的文档集合；缺点是因为Web结构相当深,，有可能造成一旦进去，再也出不来的情况发生

广度优先是爬虫中使用最广泛的一种爬虫策略，主要原因有三点：
1. 重要的网页往往离种子比较近。例如我们打开新闻网站的时候往往是最热门的新闻，随着不断的深入冲浪，所看到的网页的重要性越来越低。
2. 万维网的实际深度最多能达到17层，但到达某个网页总存在一条很短的路径。而广度优先遍历会以最快的速度到达这个网页。
3. 广度优先有利于多爬虫的合作抓取，多爬虫合作通常先抓取站内链接，抓取的封闭性很强。