爬虫抓取策略介绍_爬虫怎么抓取政策-CSDN博客

本文链接：https://blog.csdn.net/tonglanli/article/details/5264431

本文介绍了搜索引擎爬虫的复杂性和重要性，强调了爬虫开销的评估标准，并探讨了Google爬虫的Crawl Caching Proxy策略以减少重复抓取。重点讲述了爬虫的几种策略，包括查询驱动、反向链接数、PR值、前向链接数和URL路径深度，并提及了新策略如RPR(Reverse PageRank)。这些因素共同决定了页面的抓取优先级，以提高爬取效率。

摘要由CSDN通过智能技术生成

Google去年在其官方博客声称已经发现了一万亿的独立URL，面对如此庞大的Web，，分布式的增量爬虫系统是相当的复杂。Google爬虫为了节省带宽，采用了Crawl Caching Proxy(缓存代理)，避免Google多种爬虫(GoogleBot,GoogleBlogsearch Bot,GoogleNews Bot等等)重复爬取同一页面。现在网上复制内容或者同一内容不同表现形式导致大量重复内容，爬虫面临的问题就是减少大量重复内容的抓取。
由于爬虫系统相当复杂，这里主要介绍爬虫的一些爬取策略。对于搜索引擎而言，爬虫最重要的效率，一个重要的评价标准就是爬虫开销，Dasgupta等人将爬虫开销定义为：
爬虫开销=重复抓取的老页面数/发掘新页面数
看得出来，以最快的速度抓取最重要的、最新的页面，才是最好的爬虫策略。网上各种爬虫介绍文章可能都提到过爬取策略，如广度优先、最佳优先，或者还有线性以及最新的OPIC(On-Line Page Importance Computation)策略等等，其实现在基本上采用混合策略，对每个页面有一个优先级，Google爬虫对页面的爬取优先级考虑以下几点因素：
1.查询驱动的爬取，对于一个查询，页面与查询的相关性高低决定了页面被爬取的优先级，但是由于在页面未被爬取前无法判定相关性，只能通过已爬取的其他页面来判断未爬取的页面的相关性，如指向该页面的链接、锚文本等来决定。这个爬取策略可能特别适合现在新闻之类的实时搜索，当突发性的用户热门查询发生时，爬虫可能赋予一些包含相关内容页面一个很高的优先级，快速爬取和更新热门内