boost简单分析

最新推荐文章于 2024-04-23 17:09:00 发布

Curry曰天

最新推荐文章于 2024-04-23 17:09:00 发布

阅读量771

点赞数

分类专栏： nutch 文章标签：算法 google 存储网络

nutch 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

Boost field的值是通过链接到此网页的链接数目来进行计

算的，链接到此网页的链接越多，此值越大。但是两者并不是成线性关系的，

而是通过对数计算而得，计算公式为ln(e+n)，其中参数n即是链接数目。例如此

例中链接到网页A的只有一个网页B，所以boost的值计算为ln(e+1) = 1.3132616…

但是本质上，boost的值并不是仅仅依赖于链接数目，它还与链接到本网页的母

网页的分数有关。我们分析过WebDB和segment，里面存储了每个网页的得分，

在boost的计算中，本质上是需要参考这些母网页的自身分数的。但是因为局域

网爬虫操作中默认取消了所有网页评分的操作，于是所有网页的分数被认定为1.0，

所以在boost的计算中，实际上只单独考虑了链接的数目。

那么，什么时候网页的评分将不会为1.0呢？Nutch利用了LinkAnalysisTool操作来

对网页进行评分，此操作利用的是google的pagerank算法。Pagerank算法在这里

不进行详细叙述了，有兴趣的朋友可以进行研究。我们知道，pagerank算法是

一个递归的过程，其算法复杂度和花费的时间较为巨大，所以在进行局域网

爬行的时候Nutch自动省略了这一操作，幸运的是，局域网中网页的检索在没有

这一步的情况下效果是理想的。但是对于整个网络的爬行以及检索，

LinkAnalysisTool操作是至关重要的，它也是google获得巨大成功的重要原因。

Curry曰天

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
boost简单分析

Boost field的值是通过链接到此网页的链接数目来进行计算的，链接到此网页的链接越多，此值越大。但是两者并不是成线性关系的，而是通过对数计算而得，计算公式为ln(e+n)，其中参数n即是链接数目。例如此例中链接到网页A的只有一个网页B，所以boost的值计算为ln(e+1) = 1.3132616… 但是本质上，boost的值并不是仅仅依赖于链接数目，它还
复制链接

扫一扫