搜索引擎算法研究(三)

转载 2007年09月28日 09:31:00

2.2.3 HITS的变种

   HITS算法遇到的问题,大多是因为HITS是纯粹的基于链接分析的算法,没有考虑文本内容,继J. Kleinberg提出HITS算法以后,很多研究者对HITS进行了改进,提出了许多HITS的变种算法,主要有:

2.2.3.1 Monika R. Henzinger和Krishna Bharat对HITS的改进

   对于上述提到的HITS遇到的第2个问题,Monika R. Henzinger和Krishna Bharat在[7]中 进行了改进。假定主机A上有k个网页指向主机B上的某个文档d,则A上的k个文档对B的Authority贡献值总共为1,每个文档贡献1/k,而不是 HITS中的每个文档贡献1,总共贡献k。类似的,对于Hub值,假定主机A上某个文档t指向主机B上的m个文档,则B上m个文档对t的Hub值总共贡献 1,每个文档贡献1/m。I,O操作改为如下

I 操作:

O操作:

   调整后的算法有效的解决了问题2,称之为imp算法。

   在这基础上,Monika R. Henzinger和Krishna Bharat还引入了传统信息检索的内容分析技术来解决4和5,实际上也同时解决了问题3。具体方法如下,提取根集S中的每个文档的前1000个词语,串 连起来作为查询主题Q,文档Dj和主题Q的相似度按如下公式计算:

=项i在查询Q中的出现次数,

=项i在文档Dj中的出现次数,IDFi是WWW上包含项i的文档数目的估计值。

   在S扩展到T后,计算每个文档的主题相似度,根据不同的阈值(threshold)进行刷选,可以选择所有 文档相似度的中值,根集文档相似度的中值,最大文档相似度的分数,如1/10,作为阈值。根据不同阈值进行处理,删除不满足条件的文档,再运行imp算法 计算文档的A/H值,这些算法分别称为med,startmed,maxby10。

   在此改进的算法中,计算文档的相似度时间开销会很大。

2.2.3.2 ARC算法

   IBM Almaden研究中心的Clever工程组提出了ARC(Automatic Resource Compilation)算法,对原始的HITS做了改进,赋予网页集对应的连结矩阵初值时结合了链接的锚(anchor)文本,适应了不同的链接具有不 同的权值的情况。

   ARC算法与HITS的不同主要有以下3点:

1.由根集S扩展为T时,HITS只扩展与根集中网页链接路径长度为1的网页,也就是只扩展直接与S相邻的网页,而ARC中把扩展的链接长度增加到2,扩展后的网页集称为增集(Augment Set)。

2.HITS算法中,每个链接对应的矩阵值设为1,实际上每个链接的重要性是不同的,ARC算法考虑了链接周围的 文本来确定链接的重要性。考虑链接p->q,p中有若干链接标记,文本1<a href=”q”>锚文本</a>文本2,设查询项t在文本1,锚文本,文本2,出现的次数为n(t),则w(p,q)=1+n (t)。文本1和文本2的长度经过试验设为50字节[10]。构造矩阵W,如果有网页i->j ,Wi,j=w(i,j),否则Wi,j=0,H值设为1,Z为W的转置矩阵,迭代执行下面3个的操作:

(1)A=WH (2)H=ZA (3)规范化A,H

3.ARC算法的目标是找到前15个最重要的网页,只需要A/H的前15个值相对大小保持稳定即可,不需要A/H整个收敛,这样2中迭代次数很小就能满足,[10]中指出迭代5次就可以,所以ARC算法有很高的计算效率,开销主要是在扩展根集上。 

2.2.3.3 Hub平均( Hub-Averaging-Kleinberg)算法

   Allan Borodin等在[11]指出了一种现象,设有M+1个Hub网页, M+1个权威网页,前M个Hub指向第一个权威网页,第M+1个Hub网页指向了所有M+1个权威网页。显然根据HITS算法,第一个权威网页最重要,有 最高的Authority值,这是我们希望的。但是,根据HITS,第M+1个Hub网页有最高的Hub值,事实上,第M+1个Hub网页既指向了权威值 很高的第一个权威网页,同时也指向了其它权威值不高的网页,它的Hub值不应该比前M个网页的Hub值高。因此,Allan Borodin修改了HITS的O操作:

O操作: ,n是(v,u)的个数

   调整以后,仅指向权威值高的网页的Hub值比既指向权威值高又指向权威值低的网页的Hub值高,此算法称为Hub平均(Hub-Averaging-Kleinberg)算法。

2.2.3.4 阈值(Threshhold—Kleinberg)算法

   Allan Borodin等在[11]中同时提出了3种阈值控制的算法,分别是Hub阈值算法,Authority阈值算法,以及结合2者的全阈值算法。

   计算网页p的Authority时候,不考虑指向它的所有网页Hub值对它的贡献,只考虑Hub值超过平均值的网页的贡献,这就是Hub阈值方法。

   Authority阈值算法和Hub阈值方法类似,不考虑所有p指向的网页的Authority对p的Hub值贡献,只计算前K个权威网页对它Hub值的贡献,这是基于算法的目标是查找最重要的K个权威网页的前提。

   同时使用Authority阈值算法和Hub阈值方法的算法,就是全阈值算法 

搜索引擎算法研究(五)

为了符合贝叶斯统计模型的规范,要给2M+N个未知参数(,,)指定先验分布,这些分布应该是一般化的,不提供信息的,不依赖于被观察数据的,对结果只能产生很小影响的。Allan Borodin等在中指定满足...

搜索引擎算法研究专题三:聚集索引与非聚集索引介绍

聚集索引介绍   在聚集索引中,表中各行的物理顺序与键值的逻辑(索引)顺序相同。表只能包含一个聚集索引。   如果不是聚集索引,表中各行的物理顺序与键值的逻辑顺序不匹配。聚集索引比非聚集索引有更快...

搜索引擎研究---网络蜘蛛程序算法相关资料 Part VI (共5部分)

搜索引擎研究---网络蜘蛛程序算法相关资料 1、解析HTML文件 这里有两个为了查找A HREF来解析HTML文件方法——一个麻烦的方法和一个简单的方法。 如果你选择麻烦的方法,...
  • my98800
  • my98800
  • 2016年07月18日 09:15
  • 179

几种搜索引擎算法研究(转)

d61fGFf5KTmeMsmIuKpni1XO5hnGZsB1HR1rG2lTpG0nIfbN 1.引言    万维网WWW(World Wide Web)是一个巨大的,分布全球的信息服...
  • pi9nc
  • pi9nc
  • 2013年09月01日 21:32
  • 862

搜索引擎研究---网络蜘蛛程序算法相关资料 Part II (共5部分)

索引擎研究---网络蜘蛛程序算法相关资料 接下来就可以读取Web文件的内容并写入到本地文件,这可以通过一个循环方便地完成。 int l;do{l = inStream.Read(buffe...
  • my98800
  • my98800
  • 2016年07月18日 09:14
  • 171

搜索引擎研究---网络蜘蛛程序算法相关资料 Part III (共5部分)

搜索引擎研究---网络蜘蛛程序算法相关资料  摘要 你是否想过创建自己的符合特定标准的网站数据库呢?网络蜘蛛,有时也称为网络爬虫,是一些根据网络链接从一个网站到另外一个网站,检查内容和记录位置...
  • my98800
  • my98800
  • 2016年07月18日 09:14
  • 133

搜索引擎算法研究专题四:随机冲浪模型介绍

Google的Lawrence Page和Sergey Brin为PageRank(PR)算法给出了一个非常简单直观的解释。他们将PageRank视作一种模型,就是用户不关心网页内容而随机点击链接。 ...

收集的几种搜索引擎算法研究

1.引言    万维网WWW(World Wide Web)是一个巨大的,分布全球的信息服务中心,正在以飞快的速度扩展。1998年WWW上拥有约3.5亿个文档[14],每天增加约1百万的文档[6],...

搜索引擎算法研究

1.引言     万维网WWW(World Wide Web)是一个巨大的,分布全球的信息服务中心,正在以飞快的速度扩展。1998年WWW上拥有约3.5亿个文档[14] ,每天增加约1百万的文档[...

几种搜索引擎算法研究

1.引言   万维网WWW(World Wide Web)是一个巨大的,分布全球的信息服务中心,正在以飞快的速度扩展。1998年WWW上拥有约3.5亿个文档[14],每天增加约1百万的文档[6],不到...
  • dadoneo
  • dadoneo
  • 2011年07月02日 10:17
  • 849
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:搜索引擎算法研究(三)
举报原因:
原因补充:

(最多只允许输入30个字)