爬虫选取策略主要解决抓取什么样的url,什么样的url不需要抓取。筛选主要关注的有两点。一是选择优质的url进行抓取。二是避免重复的抓取以节约抓取。下面介绍下相关的策略。
Pagerank
Pagerank(http://baike.baidu.com/view/844648.htm?fromId=1518) 是Google的专有算法,是用来衡量特定网页相对于搜索引擎中的其他网页的重要程度。
Pagerank的大致思想为利用网页间的链接指向关系来表示网页的重要程度。
对于不同的搜索引擎,其实现会有不同。关于Pagerank可以参考:http://blog.codinglabs.org/articles/intro-to-pagerank.html。在此不再阐述。
另外由于Pagerank依赖网页间的互相指向关系,而爬虫在抓取时一般都是从其父页面获取指向子页面的链接关系,因此一般爬虫主要利用父页面来计算子页面。
另外选择优质的url还可以根据链接距离站点首页的深度(比如从首页发现的链接一般更重要),链接在页面中的位置(比如位于页面正文部位的链接和位于页面侧边栏的链接的重要性就不同)。新发现的url优先抓取等。
Url规格化
一、保留语义的规范化
在RFC3986: http://tools.ietf.org/html/rfc3986 中
1、协