爬虫那些事儿---爬虫选择策略

本文探讨了爬虫在选取url时的策略,包括基于Pagerank的重要度评估,Url的规范化以确保相同内容的唯一表示,处理同名站以避免资源浪费,以及识别和过滤Spam以优化抓取效率。通过这些策略,爬虫能更有效地抓取优质内容并减少重复和无用数据的抓取。
摘要由CSDN通过智能技术生成

爬虫选取策略主要解决抓取什么样的url,什么样的url不需要抓取。筛选主要关注的有两点。一是选择优质的url进行抓取。二是避免重复的抓取以节约抓取。下面介绍下相关的策略。

Pagerank

Pagerank(http://baike.baidu.com/view/844648.htm?fromId=1518) 是Google的专有算法,是用来衡量特定网页相对于搜索引擎中的其他网页的重要程度。

Pagerank的大致思想为利用网页间的链接指向关系来表示网页的重要程度。

对于不同的搜索引擎,其实现会有不同。关于Pagerank可以参考:http://blog.codinglabs.org/articles/intro-to-pagerank.html。在此不再阐述。

另外由于Pagerank依赖网页间的互相指向关系,而爬虫在抓取时一般都是从其父页面获取指向子页面的链接关系,因此一般爬虫主要利用父页面来计算子页面。

    另外选择优质的url还可以根据链接距离站点首页的深度(比如从首页发现的链接一般更重要),链接在页面中的位置(比如位于页面正文部位的链接和位于页面侧边栏的链接的重要性就不同)。新发现的url优先抓取等。

Url规格化

一、保留语义的规范化
在RFC3986: http://tools.ietf.org/html/rfc3986
1、协

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值