爬虫的搜索策略_聚焦网络爬虫的常用策略-CSDN博客

本文链接：https://blog.csdn.net/qq_42359085/article/details/104107010

1、深度优先搜索
该策略在爬虫开发的早期使用的较多。目的是达到被搜索结构的叶节点(那些不包含任何超级URL的HTNL文件)。不断的爬取HTML文件中的URL，直到HTML文件中没有URL为止。
深度优先搜索沿着HTML文件中的URL走到不能再深入为止然后返回到某一个JTML文件，再继续选择该HTML文件中的其他URL。当不再有其他的URL可选择时，说明搜索已经结束。优点是能遍历一个Web站点或者深层嵌套的文档集合。缺点是因为Web结构相当的深，有可能一旦进去再也出不来的情况发生。
2、宽度优先搜索
宽度优先搜索是搜索完一个Web页面中所有的URL,然后继续搜索下一层，直到底层为止。
一旦一层上的所有RUL都被选择过，就可以开始在刚才处理过的页面中搜索其余的URL，这就保证了对浅层的优先处理。当遇到一个无穷尽的深层分支时，不会导致陷进深层文档中出不来的情况发生。该搜索策略一个优点就是能够在两个页面之间找到最短路径。宽度优先搜索策略通常是实现爬虫等我最佳策略，因为它容易实现，而且具备大多数期望的功能。但是如果要遍历一个指定的站点或者深层嵌套的HTML文件集，宽度优先搜索需要花费较长的时间才能达到最顶层。
3、聚焦爬虫的爬行策略
该爬虫的爬行策略只跳出某个特定主题页面，根据“最好优先原则”进行访问，快速、有效地获得更多与主题相关的页面，主要通过内容与Web的URL结构指导进行页面的抓取。聚焦爬虫会给所下载的页面一个评分，根据的分排序插入一个队列中。最好下一个搜索弹出队列的第一个页面进行分析后执行，这种策略保证爬虫能优先跟踪那些最有可能URL得到目标页面的页面。