搜索引擎算法研究(四)

转载 2007年09月28日 09:34:00
.3 SALSA算法

   PageRank算法是基于用户随机的向前浏览网页的直觉知识,HITS算法考虑的是 Authoritive网页和Hub网页之间的加强关系。实际应用中,用户大多数情况下是向前浏览网页,但是很多时候也会回退浏览网页。基于上述直觉知 识,R. Lempel和S. Moran提出了SALSA(Stochastic Approach for Link-Structure Analysis)算法[8],考虑了用户回退浏览网页的情况,保留了PageRank的随机漫游和HITS中把网页分为Authoritive和Hub的思想,取消了Authoritive和Hub之间的相互加强关系。

   具体算法如下:

1.和HITS算法的第一步一样,得到根集并且扩展为网页集合T,并除去孤立节点。
2.从集合T构造无向图G’=(Vh,Va,E)
Vh = { sh |   s∈C and out-degree(s) > 0 } ( G’的Hub边).
Va = { sa |   s∈C and in-degree(s) > 0 } (G’的Authority边).
E= { (sh , ra) |  s->r   in T }
这就定义了2条链,Authority链和Hub链。
3.定义2条马尔可夫链的变化矩阵,也是随机矩阵,分别是Hub矩阵H,Authority矩阵A。
4.求出矩阵H,A的主特征向量,就是对应的马尔可夫链的静态分布。
5.A中值大的对应的网页就是所要找的重要网页。

SALSA算法没有HITS中相互加强的迭代过程,计算量远小于HITS。SALSA算法只考虑直接相邻的网页对自身A/H的影响,而HITS是计算整个网页集合T对自身AH的影响。

   实际应用中,SALSA在扩展根集时忽略了很多无关的链接,比如

1.同一站点内的链接,因为这些链接大多只起导航作用。
2.CGI 脚本链接。
3.广告和赞助商链接。

   试验结果表明,对于单主题查询java,SALSA有比HITS更精确的结果,对于多主题查询abortion,HITS的结果集中于主题的某个方面,而SALSA算法的结果覆盖了多个方面,也就是说,对于TKC现象,SALSA算法比HITS算法有更高的健壮性。

2.3.1 BFS(Backword Forward Step)算法

   SALSA算法计算网页的Authority值时,只考虑网页在直接相邻网页集中的受欢迎程度,忽略其它网页对它的影响。HITS算法考虑的是整个图的结构,特别的,经过n步以后,网页i的Authority的权重是为离开网页i的的路径的数目,也就是说网页j<>i,对i的权值贡献等于从i到j的路径的数量。如果从i到j包含有一个回路,那么j对i的贡献将会呈指数级增加,这并不是算法所希望的,因为回路可能不是与查询相关的。

   因此,Allan Borodin等[11]提出了BFS(Backward Forward Step)算法,既是SALSA的扩展情况,也是HITS的限制情况。基本思想是,SALSA只考虑直接相邻网页的影响,BFS扩展到考虑路径长度为n的相邻网页的影响。在BFS中,被指定表示能通过路径到达i的结点的集合,这样j对i的贡献依赖就与j到i的距离。BFS采用指数级降低权值的方式,结点i的权值计算公式如下:

|B(i)|+ |BF(i)| +|BFB(i)|+……+||

   算法从结点i开始,第一步向后访问,然后继续向前或者向后访问邻居,每一步遇到新的结点加入权值计算,结点只有在第一次被访问时加入进去计算。

 

.4 PHITS

   D. Cohn and H. Chang提出了计算Hub和Authority的统计算法PHITS(Probabilistic analogue of the HITS)[12]。他们提出了一个概率模型,在这个模型里面一个潜在的因子或者主题z影响了文档d到文档c的一个链接,他们进一步假定,给定因子z,文档c的条件分布P(c|z)存在,并且给定文档d,因子z的条件分布P(z|d)也存在。
   P(d) P(z|d) P(c|z) ,其中

   根据这些条件分布,提出了一个可能性函数(likelihood function)L,

,M是对应的连结矩阵

   然后,PHITS算法使用Dempster等提出的EM算法[20]分配未知的条件概率使得L最大化,也就是最好的解释了网页之间的链接关系。算法要求因子z的数目事先给定。Allan Borodin指出,PHITS中使用的EM算法可能会收敛于局部的最大化,而不是真正的全局最大化[11]。D. Cohn和T. Hofmann还提出了结合文档内容和超链接的概率模型[13]

 

.5 贝叶斯算法

   Allan Borodin等提出了完全的贝叶斯统计方法来确定Hub和Authoritive网页[11]。假定有M个Hub网页和N个Authority网页,可以是相同的集合。每个Hub网页有一个未知的实数参数,表示拥有超链的一般趋势,一个未知的非负参数,表示拥有指向Authority网页的链接的趋势。每个Authoritive网页j,有一个未知的非负参数,表示j的Authority的级别。

   统计模型如下,Hub网页i到Authority网页j的链接的先验概率如下给定:
    P(i,j)=Exp()/(1+Exp())
   Hub网页i到Authority网页j没有链接时,P(i,j)=1/(1+Exp())

   从以上公式可以看出,如果很大(表示Hub网页i有很高的趋势指向任何一个网页),或者都很大(表示i是个高质量Hub,j是个高质量的Authority网页),那么i->j的链接的概率就比较大。

 

搜索引擎算法研究

1.引言     万维网WWW(World Wide Web)是一个巨大的,分布全...
  • maliang1225
  • maliang1225
  • 2007年04月21日 00:55
  • 714

搜索引擎算法研究(三)

2.2.3 HITS的变种   HITS算法遇到的问题,大多是因为HITS是纯粹的基于链接分析的算法,没有考虑文本内容,继J. Kleinberg提出HITS算法以后,很多研究者对HITS进行了改进,...
  • qyangxjtu
  • qyangxjtu
  • 2007年09月28日 09:31
  • 698

几种搜索引擎算法研究(转)

d61fGFf5KTmeMsmIuKpni1XO5hnGZsB1HR1rG2lTpG0nIfbN 1.引言    万维网WWW(World Wide Web)是一个巨大的,分布全球的信息服...
  • pi9nc
  • pi9nc
  • 2013年09月01日 21:32
  • 882

搜索引擎算法研究(二)

2.1.2 算法的一些问题   Google是结合文本的方法来实现PageRank算法的[2],所以只返回包含 查询项的网页,然后根据网页的rank值对搜索到的结果进行排序,把rank值最高的网页放置...
  • qyangxjtu
  • qyangxjtu
  • 2007年09月25日 19:54
  • 612

搜索引擎网页排序算法研究

 搜索引擎网页排序算法研究(转自中点线网络:http://www.cnbjyh.com/seo/201103075540.html)        随着互联网的飞速发展,网络信息资源越来越庞大,通常情...
  • chz870128
  • chz870128
  • 2011年03月24日 19:09
  • 926

各种搜索引擎算法研究

 各种搜索引擎算法研究1.引言   万维网WWW(World Wide Web)是一个巨大的,分布全球的信息服务中心,正在以飞快的速度扩展。1998年WWW上拥有约3.5亿个文档[14],每天增加约1...
  • Mac_cm
  • Mac_cm
  • 2007年11月16日 18:26
  • 1041

几种搜索引擎算法研究

1.引言   万维网WWW(World Wide Web)是一个巨大的,分布全球的信息服务中心,正在以飞快的速度扩展。1998年WWW上拥有约3.5亿个文档[14],每天增加约1百万的文档[6],不到...
  • dadoneo
  • dadoneo
  • 2011年07月02日 10:17
  • 868

搜索引擎算法研究(五)

为了符合贝叶斯统计模型的规范,要给2M+N个未知参数(,,)指定先验分布,这些分布应该是一般化的,不提供信息的,不依赖于被观察数据的,对结果只能产生很小影响的。Allan Borodin等在中指定满足...
  • qyangxjtu
  • qyangxjtu
  • 2007年09月28日 09:35
  • 1100

Google搜索引擎算法研究

 1.简介万维网WWW(World Wide Web)是一个巨大的,分布全球的信息服务中心,正在以飞快的速度扩展。1998年WWW上拥有约3.5亿个文档[14],每天增加约1百万的文档,不到 9个月的...
  • shifuwawa
  • shifuwawa
  • 2009年11月15日 11:25
  • 620

搜索引擎算法研究(一)

泉注:转载自http://www.seochat.org     ...
  • qyangxjtu
  • qyangxjtu
  • 2007年09月25日 15:03
  • 681
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:搜索引擎算法研究(四)
举报原因:
原因补充:

(最多只允许输入30个字)