爬虫抓取策略介绍

本文介绍了搜索引擎爬虫的复杂性和重要性,强调了爬虫开销的评估标准,并探讨了Google爬虫的Crawl Caching Proxy策略以减少重复抓取。重点讲述了爬虫的几种策略,包括查询驱动、反向链接数、PR值、前向链接数和URL路径深度,并提及了新策略如RPR(Reverse PageRank)。这些因素共同决定了页面的抓取优先级,以提高爬取效率。
摘要由CSDN通过智能技术生成

Google去年在其官方博客声称已经发现了一万亿的独立URL,面对如此庞大的Web,,分布式的增量爬虫系统是相当的复杂。Google爬虫为了节省 带宽,采用了Crawl Caching Proxy(缓存代理),避免Google多种爬虫(GoogleBot,GoogleBlogsearch Bot,GoogleNews Bot等等)重复爬取同一页面 。现在网上复制内容或者同一内容不同表现形式导致大量重复内容,爬虫面临的问题就是减少大量重复内容的抓取。
      由于爬虫系统相当复杂,这里主要介绍爬虫的一些爬取策略。对于搜索引擎而言,爬虫最重要的效率,一个重要的评价标准就是爬虫开销,Dasgupta等人将爬虫开销定义为:
爬虫开销=重复抓取的老页面数/发掘新页面数
看得出来,以最快的速度抓取最重要的、最新的页面,才是最好的爬虫策略。网上各种爬虫介绍文章可能都提到过爬取策略,如广度优先、最佳优先,或者还有线性 以及最新的OPIC(On-Line Page Importance Computation)策略等等,其实现在基本上采用混合策略,对每个页面有一个优先级,Google爬虫对页面的爬取优先级考虑以下几点因素:
     1.查询驱动的爬取,对于一个查询,页面与查询的相关性高低决定了页面被爬取的优先级,但是由于在页面未被爬取前无法判定相关性,只能通过已爬取的其他页面来判断未爬取的页面的相关性,如指向该页面的链接锚文本 等来决定。这个爬取策略可能特别适合现在新闻之类的实时搜索,当突发性的用户热门查询发生时,爬虫可能赋予一些包含相关内容页面一个很高的优先级,快速爬取和更新热门内

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值