Boost field的值是通过链接到此网页的链接数目来进行计
算的,链接到此网页的链接越多,此值越大。但是两者并不是成线性关系的,
而是通过对数计算而得,计算公式为ln(e+n),其中参数n即是链接数目。例如此
例中链接到网页A的只有一个网页B,所以boost的值计算为ln(e+1) = 1.3132616…
但是本质上,boost的值并不是仅仅依赖于链接数目,它还与链接到本网页的母
网页的分数有关。我们分析过WebDB和segment,里面存储了每个网页的得分,
在boost的计算中,本质上是需要参考这些母网页的自身分数的。但是因为局域
网爬虫操作中默认取消了所有网页评分的操作,于是所有网页的分数被认定为1.0,
所以在boost的计算中,实际上只单独考虑了链接的数目。
那么,什么时候网页的评分将不会为1.0呢?Nutch利用了LinkAnalysisTool操作来
对网页进行评分,此操作利用的是google的pagerank算法。Pagerank算法在这里
不进行详细叙述了,有兴趣的朋友可以进行研究。我们知道,pagerank算法是
一个递归的过程,其算法复杂度和花费的时间较为巨大,所以在进行局域网
爬行的时候Nutch自动省略了这一操作,幸运的是,局域网中网页的检索在没有
这一步的情况下效果是理想的。但是对于整个网络的爬行以及检索,
LinkAnalysisTool操作是至关重要的,它也是google获得巨大成功的重要原因。