搜索引擎算法研究（五）

最新推荐文章于 2023-10-16 09:32:18 发布

qyangxjtu

最新推荐文章于 2023-10-16 09:32:18 发布

阅读量1.4k

点赞数

分类专栏：互联网数据结构与算法文章标签：算法搜索引擎 web random 文档优化

互联网同时被 2 个专栏收录

19 篇文章 0 订阅

订阅专栏

数据结构与算法

7 篇文章 0 订阅

订阅专栏

为了符合贝叶斯统计模型的规范，要给2M＋N个未知参数（，，）指定先验分布，这些分布应该是一般化的，不提供信息的，不依赖于被观察数据的，对结果只能产生很小影响的。Allan Borodin等在中指定满足正太分布N（μ，）,均值μ＝0，标准方差δ＝10，指定和满足Exp（1）分布，即x>=0，P(>=x)＝P(>=x)＝Exp（－x）。

接下来就是标准的贝叶斯方法处理和HITS中求矩阵特征根的运算。

２.５.１　简化的贝叶斯算法

Allan Borodin同时提出了简化的上述贝叶斯算法，完全除去了参数，也就不再需要正太分布的参数μ，δ了。计算公式变为：P（i，j）＝/（1＋），Hub网页到Authority网页j没有链接时，P（i，j）＝1/(1＋)。

Allan Borodin 指出简化的贝叶斯产生的效果与SALSA算法的结果非常类似。

２.６　Reputation

上面的所有算法，都是从查询项或者主题出发，经过算法处理，得到结果网页。多伦多大学计算机系 Alberto Mendelzon, Davood Rafiei提出了一种反向的算法，输入为某个网页的URL地址，输出为一组主题，网页在这些主题上有声望（repution）^[16]。比如输入，www.gamelan.com，可能的输出结果是“java”，具体的系统可以访问htpp://www.cs.toronto.edu/db/topic。

给定一个网页p，计算在主题t上的声望，首先定义2个参数，渗透率和聚焦率，简单起见，网页p包含主题项t，就认为p在主题t上。

是指向p而且包含t的网页数目，是指向p的网页数目，是包含t的网页数目。结合非条件概率，引入，，是WEB上网页的数目。P在t上的声望计算如下：

指定是既指向p有包含t的概率，即，显然有

我们可以从搜索引擎（如Altavista）的结果得到，, ,WEB上网页的总数估计值某些组织会经常公布，在计算中是个常量不影响RM的排序，RM最后如此计算：

给定网页p和主题t，RM可以如上计算，但是多数的情况的只给定网页p，需要提取主题后计算。算法的目标是找到一组t，使得RM（p，t）有较大的值。TOPIC系统中是抽取指向p的网页中的锚文本的单词作为主题（上面已经讨论过锚文本能很好描述目标网页，精度很高），避免了下载所有指向p的网页，而且RM（p，t）的计算很简单，算法的效率较高。主题抽取时，还忽略了用于导航、重复的链接的文本，同时也过滤了停止字（stop word），如“a”，“the”，“for”，“in”等。

Reputation算法也是基于随机漫游模型的（random walk），可以说是PageRank和SALSA算法的结合体。

３.链接算法的分类及其评价

链接分析算法可以用来提高搜索引擎的查询效果，可以发现WWW上的重要的社区，可以分析某个网站的拓扑结构，声望，分类等，可以用来实现文档的自动分类等。归根结底，能够帮助用户在WWW海量的信息里面准确找到需要的信息。这是一个正在迅速发展的研究领域。

上面我们从历史的角度总结了链接分析算法的发展历程，较为详细的介绍了算法的基本思想和具体实现，对算法的存在的问题也做了讨论。这些算法有的处于研究阶段，有的已经在具体的系统实现了。这些算法大体可以分为3类，基于随机漫游模型的，比如PageRank， Repution算法，基于Hub和Authority相互加强模型的，如HITS及其变种，基于概率模型的，如SALSA，PHITS，基于贝叶斯模型的，如贝叶斯算法及其简化版本。所有的算法在实际应用中都结合传统的内容分析技术进行了优化。一些实际的系统实现了某些算法，并且获得了很好的效果， Google实现了PageRank算法，IBM Almaden Research Center 的Clever Project实现了ARC算法，多伦多大学计算机系实现了一个原型系统TOPIC，来计算指定网页有声望的主题。

AT&T香农实验室的Brian Amento在指出，用权威性来评价网页的质量和人类专家评价的结果是一致的，并且各种链接分析算法的结果在大多数的情况下差别很小^[15]。但是，Allan Borodin也指出没有一种算法是完美的，在某些查询下，结果可能很好，在另外的查询下，结果可能很差^[11]。所以应该根据不同查询的情况，选择不同的合适的算法。

基于链接分析的算法，提供了一种衡量网页质量的客观方法，独立于语言，独立于内容，不需人工干预就能自动发现WEB上重要的资源，挖掘出WEB上重要的社区，自动实现文档分类。但是也有一些共同的问题影响着算法的精度。

１．根集的质量。根集质量应该是很高的，否则，扩展后的网页集会增加很多无关的网页，产生主题漂移，主题泛化等一系列的问题，计算量也增加很多。算法再好，也无法在低质量网页集找出很多高质量的网页。

２．噪音链接。WEB上不是每个链接都包含了有用的信息，比如广告，站点导航，赞助商，用于友情交换的链接，对于链接分析不仅没有帮助，而且还影响结果。如何有效的去除这些无关链接，也是算法的一个关键点。

３．锚文本的利用。锚文本有很高的精度，对链接和目标网页的描述比较精确。上述算法在具体的实现中利用了锚文本来优化算法。如何准确充分的利用锚文本，对算法的精度影响很大。

４．查询的分类。每种算法都有自身的适用情况，对于不同的查询，应该采用不同的算法，以求获得最好的结果。因此，对于查询的分类也显得非常重要。

当然，这些问题带有很大的主观性，比如，质量不能精确的定义，链接是否包含重要的信息也没有有效的方法能准确的判定，分析锚文本又涉及到语义问题，查询的分类也没有明确界限。如果算法要取得更好的效果，在这几个方面需要继续做深入的研究，相信在不久的将来会有更多的有趣和有用的成果出现。

qyangxjtu

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
搜索引擎算法研究（五）

为了符合贝叶斯统计模型的规范，要给2M＋N个未知参数（，，）指定先验分布，这些分布应该是一般化的，不提供信息的，不依赖于被观察数据的，对结果只能产生很小影响的。Allan Borodin等在中指定满足正太分布N（μ，）,均值μ＝0，标准方差δ＝10，指定和满足Exp（1）分布，即x>=0，P(>=x)＝P(>=x)＝Exp（－x）。接下来就是标准的贝叶斯方法处理和HITS中求矩阵特征根的
复制链接

扫一扫