基于图的评级算法——HITS

基本思想
HITS是Hypertext Induced Topic Search的缩写,它不仅给图中节点打上权威性(也就是PageRank算法中的重要性)分值,也打上中心性分值。中心性分值由该节点指向的节点决定,包括该节点指向了多少节点以及这些节点的重要性;权威性分值由指向该节点的节点决定,包括节点的数量以及这些节点的中心性。中心性的基本思想是这样的,如果一个人能向你推荐很多重要的人,这个人就很重要,这就是所谓的包打听,这个重要性就是这里的中心性。再举个中心性的例子,我想入门深度学习,然后找到了一篇文章,文章列举了入门、初级、中级以及高级时应该看哪些深度学习的资料,虽然这篇文章本身没有讲深度学习是什么,但是我依旧觉得它很重要。权威性的基本思想是这样的,如果一个人被很多重要的人推荐,那么这个人就很重要,这里的很重要的推荐者和PageRank中的有所不同,具体点说就是,如果你被那些很牛的包打听收集,你就很重要,就像进入了名人堂似的。
公式推导
有个有m个顶点的图,表示为G=(V,E),其中V是顶点集,E是边集,用L表示图的临界矩阵,则有:

Lij={1,0,<i,j>E

网页i的权威值用a(i)表示,中心值用h(i)表示,求得两个值得公式如下:
a(i)=<j,i>Eh(j)
h(i)=<i,j>Ea(i)
a表示所有权威值的列向量, a=(a(1), a(2),…,a(m)) Th表示所有中心分值的列向量, h=(h(1), h(2),…,h(m)) T,于是有
a=L T h
h=L a
计算权威值和中心值与计算PageRank算法的重要性类似,需要迭代计算:
a k=L T L a k-1
h k=L L T a k-1
其中, a 0= h 0=(1, 1, … ,1)
为了让 ah中的数值不至于太大,每次迭代之后,都对它们进行归一化处理,使得:
mi=1a(i)=1
mi=1h(i)=1
注意,选择不同 a 0h 0,最终可能会收敛到不同的向量。
与PageRank的不同
HITS不仅以略微不同的方式计算了图中节点的权威值,还多计算了一个中心值。除此之外,还有一点不同就是两个算法的假设输入。PageRank算法处理整个互联网中网页构成的图;而HITS算法处理的图是这样得来的:把用户的查询词提交给搜索引擎,搜集搜索引擎返回的排名靠前的t个网页,这t个网页构成根集W,然后再把指向W内网页和W内网页指向的网页加进来,得到一个更大的网页集合S,由S生成的图就是HITS的输入。
参考资料:
《Web数据挖掘》第2版,Bing Liu 著, 俞勇 译

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值