爬虫的搜索策略

1、深度优先搜索
该策略在爬虫开发的早期使用的较多。目的是达到被搜索结构的叶节点(那些不包含任何超级URL的HTNL文件)。不断的爬取HTML文件中的URL,直到HTML文件中没有URL为止。
深度优先搜索沿着HTML文件中的URL走到不能再深入为止然后返回到某一个JTML文件,再继续选择该HTML文件中的其他URL。当不再有其他的URL可选择时,说明搜索已经结束。优点是能遍历一个Web站点或者深层嵌套的文档集合。缺点是因为Web结构相当的深,有可能一旦进去再也出不来的情况发生。
2、宽度优先搜索
宽度优先搜索是搜索完一个Web页面中所有的URL,然后继续搜索下一层,直到底层为止。
一旦一层上的所有RUL都被选择过,就可以开始在刚才处理过的页面中搜索其余的URL,这就保证了对浅层的优先处理。当遇到一个无穷尽的深层分支时,不会导致陷进深层文档中出不来的情况发生。该搜索策略一个优点就是能够在两个页面之间找到最短路径。宽度优先搜索策略通常是实现爬虫等我最佳策略,因为它容易实现,而且具备大多数期望的功能。但是如果要遍历一个指定的站点或者深层嵌套的HTML文件集,宽度优先搜索需要花费较长的时间才能达到最顶层。
3、聚焦爬虫的爬行策略
该爬虫的爬行策略只跳出某个特定主题页面,根据“最好优先原则”进行访问,快速、有效地获得更多与主题相关的页面,主要通过内容与Web的URL结构指导进行页面的抓取。聚焦爬虫会给所下载的页面一个评分,根据的分排序插入一个队列中。最好下一个搜索弹出队列的第一个页面进行分析后执行,这种策略保证爬虫能优先跟踪那些最有可能URL得到目标页面的页面。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值