1、深度优先搜索
该策略在爬虫开发的早期使用的较多。目的是达到被搜索结构的叶节点(那些不包含任何超级URL的HTNL文件)。不断的爬取HTML文件中的URL,直到HTML文件中没有URL为止。
深度优先搜索沿着HTML文件中的URL走到不能再深入为止然后返回到某一个JTML文件,再继续选择该HTML文件中的其他URL。当不再有其他的URL可选择时,说明搜索已经结束。优点是能遍历一个Web站点或者深层嵌套的文档集合。缺点是因为Web结构相当的深,有可能一旦进去再也出不来的情况发生。
2、宽度优先搜索
宽度优先搜索是搜索完一个Web页面中所有的URL,然后继续搜索下一层,直到底层为止。
一旦一层上的所有RUL都被选择过,就可以开始在刚才处理过的页面中搜索其余的URL,这就保证了对浅层的优先处理。当遇到一个无穷尽的深层分支时,不会导致陷进深层文档中出不来的情况发生。该搜索策略一个优点就是能够在两个页面之间找到最短路径。宽度优先搜索策略通常是实现爬虫等我最佳策略,因为它容易实现,而且具备大多数期望的功能。但是如果要遍历一个指定的站点或者深层嵌套的HTML文件集,宽度优先搜索需要花费较长的时间才能达到最顶层。
3、聚焦爬虫的爬行策略
该爬虫的爬行策略只跳出某个特定主题页面,根据“最好优先原则”进行访问,快速、有效地获得更多与主题相关的页面,主要通过内容与Web的URL结构指导进行页面的抓取。聚焦爬虫会给所下载的页面一个评分,根据的分排序插入一个队列中。最好下一个搜索弹出队列的第一个页面进行分析后执行,这种策略保证爬虫能优先跟踪那些最有可能URL得到目标页面的页面。