PageRank算法和HITS算法

楼楼刚才想了一个特别骚情的标题,叫PageRank算法和HITS算法的“前世今生”,特别像之前写头条号的套路,然后就想起来去年6月份自己有在经营一个技术型的头条号,后来因为做不到一天一篇的更新频率被我弃坑了,现在手机号换了,登陆不了,去主页看了看之前写的文章,竟然被一直这么努力的自己感动到了。:)

PageRank算法和HITS算法都属于比较著名的链接链接分析方法,作为经典方法,由此也衍生出一些列相关方法,从下图就可以看出这两种方法的前世今生。

随机游走模型:

随机游走模型就和它字面意思所表述的那样,用户的浏览在网页之间进行跳转,假设网页包含k个出链, 用户从当前页面跳转到这k个页面的概率是相等的。用户不断重复上述过程,在相互有链接指向的页面之间跳转,如果对于某个页面所包含的所有链接,用户都没有兴趣继续浏览, 则可能会在浏览器中输入另一个网址,直到到达该网页,这种行为被称为“远程跳转” 。而随机游走模型就是一个对直接跳转和远程跳转两种用户浏览行为进行抽象的概念模型。

实例

  • 5
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
PageRank算法是一种用于计算网页重要性的算法,在其基础上也发展出了一些分支算法,如下: 1. HITS算法HITS算法是基于链接分析的一种算法,它通过一个网页的入度和出度来计算它的权重。HITS算法将网页分成两类:hub和authority。hub是指指向其他网页的网页,而authority是指被其他网页指向的网页。HITS算法通过迭代计算每个网页的hub和authority得分。 2. TrustRank算法:TrustRank算法是一种基于信任的算法,它通过识别可信任的网页来提高搜索结果的质量。TrustRank算法认为,如果一个网页被许多可信任的网页所链接,那么它本身也是可信任的。因此,TrustRank算法以可信任的网页为种子集合,通过迭代扩展来计算每个网页的可信度。 3. SALSA算法:SALSA算法是一种基于对称性的算法,它通过对网页的出度和入度进行加权来计算它们的权重。SALSA算法HITS算法类似,但是SALSA算法考虑了网页之间的对称性,因此可以更好地处理互相指向的网页。 4. Topic-Sensitive PageRank算法:Topic-Sensitive PageRank算法是一种基于主题的算法,它通过考虑查询主题来计算网页的权重。Topic-Sensitive PageRank算法将查询主题视为一个向量,将每个网页视为一个点,然后通过计算向量与点之间的相似度来计算每个网页的权重。 这些分支算法都是基于PageRank算法发展而来,它们各自解决了不同的问题,可以更好地适应不同的应用场景。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值