数据获取——网络爬虫3

5.抓取策略

网络爬虫在执行搜索任务时会采取一定的抓取策略每种策略的抓取方式都不一样,执行的效率也不-一样。以下是常用的抓取策略。

1)深度优先策略

对于一些大型网站和以静态网页为主的抓取内容.采取深度优先策略抓取,以便在最短时间内获得最大量的内容。深度优先策略是在开发爬虫早期使用较多的方法,它的目的是要达到被搜索结构的叶节点(即那些不包含任何超链接的HTML文件)。采取深度抓取方式的时候,搜索引擎会从网页的起始页开始,一个链接一- 个链接地跟踪下去,直至把这条线路追查完毕,然后再转向另一个网页线路,如此不停地搜索循环下去。深度优先搜索沿着HTML文件上的超链接走到不能再深人为止,然后返回到某一个HTML文件,再继续选择该HTML文件中的其他超链接。当不再有其他超链接可选择时,说明搜索已经结束。这种策略的优点是能遍历一个Web站点或深层嵌套的文档集合。缺点是因为Web结构相当深,有可能造成旦进去再也出不来的情况发生。对图8.3所示的网页结构使用深度优先策略抓取的顺序为: A-F-G、EH-.B.C.D.

c56bf29367194775a8469c3bc0130782.jpg

 2)广度优先策略

对于此动态网页或小型网站,采取广度优先策略抓取,搜索引擎会先抓取起始网页中链接的所有网页,然后再选择其中的-个链接网页,继续抓取在此网页中链接的所有网页。在抓取过程中,在完成当前层次的搜索后,才进行下一层次的搜索,逐层进行搜索。这是最常用的方法,因为这个方法可以让网络爬虫并行处理,提高其抓取速度)广度优先搜索策略通常是实现爬虫的最佳策略。因为它容易实现,而且具备大多数期望的功能。但是如果要遍历一个指定的站点或者深层嵌套的HTML文件集,用广度优先搜索策略则需要花费较长时间才能到达深层的HTML文件。

对图8.3所示的网页结构使用广度优先策略抓取的顺序为: A-B、C、D、E、F-G、H-I.

3)聚焦搜索策略

聚焦搜索策略只挑出某个特定主题的页面,根据“最好优先原则”进行访问,快速、有效地获得更多的与主题相关的页面。聚焦爬虫在页面搜索时会对自己搜索到的页面进行评价,在评价后给出分值,在对得分进行排序后会把排序表插人到一个队列中。在自己发起的下一个搜索中会对弹出队列的第一个页面进行分析,以这种策略来追踪目标页面的可能性很大。聚焦搜索策略最关键的部分就是链接价值的计算方法,不同的计算方法会带来不同的评分价值,得到的评价级别也不一样.这就决定了搜索策略的不同。

 

4)最佳优先搜索策略

这种策略按照一定的网页分析算法,先计算出URL描述文本的目标网页的相似度,设定一个值,并选取评价得分超过该值的一一个或几个URL进行抓取。它只访问经过网页分析算法计算出的相关度大于给定值的网页。这种策略存在的一个问题是.在爬虫抓取路径上的很多相关网页可能被忽略,因为最佳优先策略是一一种局部最优搜索算法。因此需要结合具体的应用对搜索策略进行改进,以跳出局部最优点。有研究表明.这样的闭环调整可以将无关网页数量降低30%~90%。

 

5)基于IP地址的搜索策略

先赋予爬虫一个起始的IP地址,然后根据IP地址递增的方式搜索本IP地址段后的每-个www地址中的文档,它完全不考虑各文档中指向其他Web站点的超级链接地址。优点是搜索全面,能够发现那些没被其他文档引用的新文档的信息源缺点是不适合大规模搜索。

搜索策略目前常见的是广度优先策略和最佳优先搜索策略。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值