看了一些PageRank算法的介绍,想在此结合文献计量学进行一些总结。如果有不对的地方,还望各位不吝赐教。
本文以文献计量学中的文献引用网络为例,简单介绍PageRank算法在文献计量学中的应用。文献引用网络中,每一个节点表示一篇文献,节点i到节点j的连边表示文献i引用文献j。所以,文献引用网络是一个有向图。
PageRank算法,主要应用在网页检索中,包含随机游走的策略思想。PageRank算法认为:
1.所有的链出都是等概率的
2.如果该网页被检索的概率越大,那么它的链出网页被检索的概率也越大。
在文献计量学中,以上两点假设可以引申为:
1.从当前文献传递给其参考文献的权威值是等概率的
2.如果当前文献权威值越大,那么它所引用的参考文献的权威值也越大。
基于这些假设,PageRank的基本公式如下所示:
Pj = (1-a)*sum(Pi/Niout)+a/N
由于csdn里没有公式编辑器,就用sum表示求和符号。上面这个公式中,Pj表示文献j的PageRank值(假设中的权威值),Pi表示文献i的PageRank值,a是一个范围在0到1之间的系数,起到调节作用(貌似名字叫做阻尼因子),N表示文献的总数,即节点个数,Niout表示文献i的参考文献数,即节点i的链出数,sum求和公式表示对所有j的链入节点进行求和。
根据上述公式,对PageRank算法进行迭代,直到算法在一定范围内收敛。最后,按照每个节点的PageRank值从高到低进行排序。
在我看到的论文中,PageRank算法具有收敛速度较快,对排序结果鲁棒性较强的特点(即网络中新增,删除,更改若干节点对最终排序效果影响较小)。PageRank算法对网络中的所有节点计算PageRank值,是一个全局算法。