PageRank 学习

文献词权的计算:

文献内频率 * 反文献频率
表示 词权与文献内出现频率成正比,同时与此词在文献集合中出现的频率成反比。

关键字与文献匹配的 计算方法,点积公式:

早起的情报检索都是以词频为词权,缺点两个词频相同的网页可能质量相差很远,人为网页堆砌关键字。


PageRank基本原理:情报检索理论中,引文分析方法,是确定学术文献权威性的重要方法之一。也是PageRank的思想来源。
PageRank在引文分析方法中加入了 对于投票者重要性的分析。

网页U的PageRank值,等于 到达网页U的所有网页的PageRank值除以它的对外链接数值的求和。

PageRank 求值过程:
初始化时,每个节点赋值1/S,重复利用公式计算,直到收敛为固定常数。


PageRank的修正:
实际的网络超链接环境中,并没有把所有的的网页形成一个的牢固的超链接图。会存在连个问题:
等级沉没 rank sink 一组紧密的链接的网页没有对外的链接,就会发生等级沉没,其他非完全图内节点 PageRank值变为0。解决办法,添加一个修正值,使得pageRank值不完全依赖着链接
等级泄露 rank leak 一个独立网页没有对外链接。它的pageRank 值最终会成为0,。解决办法,删除leak节点,或者添加一条返回链接。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值