PageRank算法在文献计量学中的应用

看了一些PageRank算法的介绍,想在此结合文献计量学进行一些总结。如果有不对的地方,还望各位不吝赐教。

本文以文献计量学中的文献引用网络为例,简单介绍PageRank算法在文献计量学中的应用。文献引用网络中,每一个节点表示一篇文献,节点i到节点j的连边表示文献i引用文献j。所以,文献引用网络是一个有向图。

PageRank算法,主要应用在网页检索中,包含随机游走的策略思想。PageRank算法认为:

1.所有的链出都是等概率的

2.如果该网页被检索的概率越大,那么它的链出网页被检索的概率也越大。

在文献计量学中,以上两点假设可以引申为:

1.从当前文献传递给其参考文献的权威值是等概率的

2.如果当前文献权威值越大,那么它所引用的参考文献的权威值也越大。

基于这些假设,PageRank的基本公式如下所示:

Pj = (1-a)*sum(Pi/Niout)+a/N

由于csdn里没有公式编辑器,就用sum表示求和符号。上面这个公式中,Pj表示文献j的PageRank值(假设中的权威值),Pi表示文献i的PageRank值,a是一个范围在0到1之间的系数,起到调节作用(貌似名字叫做阻尼因子),N表示文献的总数,即节点个数,Niout表示文献i的参考文献数,即节点i的链出数,sum求和公式表示对所有j的链入节点进行求和。

根据上述公式,对PageRank算法进行迭代,直到算法在一定范围内收敛。最后,按照每个节点的PageRank值从高到低进行排序。

在我看到的论文中,PageRank算法具有收敛速度较快,对排序结果鲁棒性较强的特点(即网络中新增,删除,更改若干节点对最终排序效果影响较小)。PageRank算法对网络中的所有节点计算PageRank值,是一个全局算法。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值