boost简单分析

Boost field的值是通过链接到此网页的链接数目来进行计

算的,链接到此网页的链接越多,此值越大。但是两者并不是成线性关系的,

而是通过对数计算而得,计算公式为ln(e+n),其中参数n即是链接数目。例如此

例中链接到网页A的只有一个网页B,所以boost的值计算为ln(e+1) = 1.3132616…

 


但是本质上,boost的值并不是仅仅依赖于链接数目,它还与链接到本网页的母

网页的分数有关。我们分析过WebDB和segment,里面存储了每个网页的得分,

在boost的计算中,本质上是需要参考这些母网页的自身分数的。但是因为局域

网爬虫操作中默认取消了所有网页评分的操作,于是所有网页的分数被认定为1.0,

所以在boost的计算中,实际上只单独考虑了链接的数目。

 

那么,什么时候网页的评分将不会为1.0呢?Nutch利用了LinkAnalysisTool操作来

对网页进行评分,此操作利用的是google的pagerank算法。Pagerank算法在这里

不进行详细叙述了,有兴趣的朋友可以进行研究。我们知道,pagerank算法是

一个递归的过程,其算法复杂度和花费的时间较为巨大,所以在进行局域网

爬行的时候Nutch自动省略了这一操作,幸运的是,局域网中网页的检索在没有

这一步的情况下效果是理想的。但是对于整个网络的爬行以及检索,

LinkAnalysisTool操作是至关重要的,它也是google获得巨大成功的重要原因。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值