pagerank学习

1.算法简介

PageRank,网页排名,又称网页级别、Google左侧排名或佩奇排名,是一种由 [1]  根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一,以Google公司创办人拉里·佩奇(Larry Page)之姓来命名。

pagerank核心思想:

  • 如果一个网页被很多网页链接,说明这个网页的比较重要,其PR值较高。
  • 如果一个网页被一个PR值很高的网页链接,意味着该网页也很重要,因此PR比较高。

2.算法原理

互联网众多网页之间的链接可以看作是一张有向图,图的结点表示网页,边表示网页间的链接。如下图,网页B链接了A和D,同时被A和D链接。pagerank算法会给每个网页初始PR值。(由于PR值物理意义上为一个网页被访问概率,所以一般是1N1N,其中N为网页总数。另外,一般情况下,所有网页的PR值的总和为1。如果不为1的话也不是不行,最后算出来的不同网页之间PR值的大小关系仍然是正确的,只是不能直接地反映概率了。)

sample1

此时A的PR值就可以表示为:

            PR(A)=PR(B)+PR(C)

然而图中很多节点的出度大于1 ,为了更符合现实,上面的表达式做以下修正:

1.想象一个用户现在在浏览B网页,那么下一步他打开A网页还是D网页在统计上应该是相同概率的。所以A分的一半B的PR值。


            PR(A)=PR(B)2你好+PR(C)1

2.互联网中不乏一些没有出链的网页。

                            sample1

对其他网页没有PR值的贡献,我们不喜欢这种自私的网页(但是为了满足 Markov 链的收敛性),于是设定其对所有的网页(包括它自己)都有出链,则此图中A的PR值可表示为:

            PR(A)=PR(B)2+PR(C)4

3.互联网中一个网页只有对自己的出链,或者几个网页的出链形成一个循环圈。那么在不断地迭代过程中,这一个或几个网页的PR值将只增不减,显然不合理。如下图中的C

                            sample3

为了解决这个问题,我们想象一个随机浏览网页的人,当他到达C网页后,显然不会傻傻地一直被C网页的小把戏困住。我们假定他有一个确定的概率会输入网址直接跳转到一个随机的网页,并且跳转到每个网页的概率是一样的。于是则此图中A的PR值可表示为:

            PR(A)=α(PR(B)2)+(1α)4


一般情况下,一个网页的PR值计算如下:

            PR(pi)=αpjMpiPR(pj)L(pj)+(1α)N

其中MpiMpi是所有对pipi网页有出链的网页集合,L(pj)是网页pj

pj的出链数目,N是网页总数,α一般取0.85

根据上面的公式,我们可以计算每个网页的PR值,在不断迭代趋于平稳的时候,即为最终结果。具体怎样算是趋于平稳,我们在下面的PR值计算方法部分再做解释。


3.算法证明

要证明利用pagerank算法,不断迭代,最后页面的PR值可以稳定,要证明下面两点:

  • limnPn是否存在?
  • 如果极限存在,那么它是否与P0的选取无关?

为了证明方便,可以用一个矩阵来表示有向图之间的链接关系。Sij=0Sij=0表示jj网页没有对ii网页的出链:

S=01/31/31/31/2001/2001001/21/20

e为所有分量都为1的列向量。接着定义矩阵:

A=αS+(1α)NeeT

则PR值的计算如下,其中Pn为第n次迭代时各网页PR值组成的列向量:

Pn+1=APn


于是计算PR值的过程就变成了一个 Markov 过程,那么PageRank算法的证明也就转为证明 Markov 过程的收敛性证明:如果这个 Markov 过程收敛,那么P_{n} 存在,且与P_0的选取无关。

若一个 Markov 过程收敛,那么它的状态转移矩阵A需要满足:(方程有解)

  1. A为随机矩阵。
  2. A是不可约的。
  3. A是非周期的。


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值