HITS Hypertext-Induced Topic Search

1. Web结构挖掘中最具有权威性和使用最广泛的算法。

2.利用Web的链接结构进行挖掘,其核心思想是建立在页面链接关系的基础上,对链接结构的改进算法。完全将网页的内容或文本排除在外, 

3.Hub页面(枢纽页面)和Authority页面(权威页面)

 “Authority”页面,是指与某个领域或者某个话题相关的高质量网页,

  “Hub”页面,指的是包含了很多指向高质量“Authority”页面链接的网页,

4.通过两个评价权值--内容权威度(Authority)和链接权威度(Hub)来对网页质量进行评估。基本思想是利用页面之间的引用链来挖掘隐含在其中的有用信息(如权威性),具有计算简单且效率高的特点。

内容权威度和链接权威度分开考虑,在对网页内容权威度做出评价的基础上再对页面的链接权威度进行评价,然后综合评价。

内容权威度与网页自身直接提供内容信息的质量相关,被越多网页所引用的网页,其内容权威度越高;链接权威度与网页提供的超链接页面的质量相关,引用越多高质量页面的网页,其链接权威度越高。

5.不足:(1)权威页面必须针对某一主题或关键词而言。例如某一页面对一确定主题具有较大权威性,但这并不意味在其他与其无关的主题方面同样具有权威性。

解决:利用超链文字及其周围文字与关键字相匹配而计算超链权值的方法,并引入系数对周围文字和超链文字进行权值的相对控制,很好地将页面文本信息引入到HITS算法,提高了算法的可靠性,并在现实中取得了很好的效果。

(2)其次一个页面对另一页面的引用有多种情况,其中包含了一页面对另一页面的认可,但除此之外也有其他目的链接,如为了导航或为了付费广告。

6.HITS算法又引入了时间参数,即利用对一链接引用的时间长短来评价是否为正常引用。因为非正常链接其引用时间肯定不会很长(如交换链接、广告链接),相反,如果一页面对另一页面的链接时间较长,则必然反映此页面就是用户的寻找页面。即目标页面或至少是正常引用。

如设定访问时间少于1分钟者为非正常引用。如果设定时间阀值,则可以将非正常引用的链接在HITS算法的实现过程中筛选出来。另外可构造时间访问函数,控制权威页面的相对大小。如随访问时间的增大而其权威性也逐渐非线性增大.这样可为HITS算法的权威页面提供更合理、更科学的解释。

7.过程:

对于“扩展集base”来说,我们并不知道哪些页面是好的“Hub”或者好的“Authority”页面,每个网页都有潜在的可能,所以对于每个页面都设立两个权值,分别来记载这个页面是好的Hub或者Authority页面的可能性。在初始情况下,在没有更多可利用信息前,每个页面的这两个权值都是相同的,可以都设置为1。

每次迭代计算Hub权值和Authority权值:

          网页 a (i)在此轮迭代中的Authority权值即为所有指向网页 a (i)页面的Hub权值之和:

            a(i) = Σ h(i) ;

          网页 a (i)的Hub分值即为所指向的页面的Authority权值之和:

           h(i) = Σ a(i) 。

          对a (i)、h (i)进行规范化处理:

           将所有网页的中心度都除以最高中心度以将其标准化:

           a(i) = a (i)/|a(i)| ;

          将所有网页的权威度都除以最高权威度以将其标准化:

          h (i) = h (i)/ |h(i)| :

最后排序,把最高的作为查询结果返回给用户。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值