2 PageRank—cs224w

1. 什麼是PageRank

在很久很久以前,點擊谷歌搜索之後,每個網址的排名就是根據pagerank進行計算的。所以,pagerank其實是一種网页排名。本质上是一种以网页之间的超链接个数和质量作为主要因素粗略地分析网页的重要性的算法。其基本假设是:更重要的页面往往更多地被其他页面引用(或称其他页面中会更多地加入通向该页面的超链接)[1]。 其将从A页面到B页面的链接解释为“A页面给B页面投票”,并根据投票来源(甚至来源的来源,即链接到A页面的页面)和投票对象的等级来决定被投票页面的等级。简单的说,一个高等级的页面可以提升其他低等级的页面。

该算法可以应用于任何含有元素之间相互引用的情况的集合实体。我们将其中任意元素E的权重数值称为E的PageRank(The PageRank of E),用符号表示为 P R ( E ) PR(E) PR(E)。其他的因素,类似“作者排名(Author Rank)”同样可以影响到该元素的权重值。

PageRank其实就是网页之间浏览的情况说明,如下图所示,假设有4个网页,1,2,3,4。这些网页之间的链接关系如下图所示。
在这里插入图片描述

2. PageRank的数学原理

PageRank的结果来源于一种基于图论的数学算法。它将万维网上所有的网页视作节点(node),而将超链接视作边(edge),并且考虑到了一些权威的网站,类似CNN。每个节点的权重值表示对应的页面的重要度。通向该网页的超链接称做“对该网页的投票(a vote of support)”。每个网页的权重值大小被递归地定义,依托于所有链接该页面的页面的权重值。例如,一个被很多页面的链接的页面将会拥有较高的权重值(high PageRank)。
在这里插入图片描述

那么,可以写成矩阵的形式。
在这里插入图片描述
那么,注意 A x = x Ax=x Ax=x的方程,等价与把整个网络架构都用一个A 来表示。只要找到特征值为1的特征向量,那么,解出来的特征向量就是PageRank的数值,根据PageRank对网页进行排序。

为什么矩阵A 一定能够找到 λ = 1 \lambda=1 λ=1的解。
这个这个PageRank的结果一定是唯一的

在这里插入图片描述

但是在下面的情况,是不唯一的
在这里插入图片描述

3. 工程中的PageRank

为了避免上述情况,PageRank真正使用的是这个:

随机浏览者(random surfer)的概念,即假设某人在浏览器中随机打开某些页面并点击了某些链接。为了便于理解,这里假设上网者不断点击网页上的链接直到进入一个没有外部链接的网页,此时他会随机浏览其他的网页(可以与之前的网页无关)。

为了处理那些“没有外部链接的页面”(这些页面就像“黑洞”一样吞噬掉用户继续向下浏览的概率)所带来的问题,我们假设:这类页面链接到集合中所有的网页(不管它们是否相关),使得这类网页的PR值将被所有网页均分。对于这种残差概率(residual probability),我们引入阻尼系数 m = 0.15 m=0.15 m=0.15,其意义是:任意时刻,用户访问到某页面后继续访问下一个页面的概率,相对应的 1 − m = 0.85 1-m=0.85 1m=0.85 则是用户停止点击,随机浏览新网页的概率。 m m m的大小由一般上网者使用浏览器书签功能的频率的平均值估算得到。
在这里插入图片描述

每个人在浏览网页时有两个模型,一个是顺着页面中的链接查看用矩阵 A A A,第二是可以随机跳转某一个网页,该部分用 S S S表示。
在这里插入图片描述
同样的,针对上述公式,则有找 M x = x Mx=x Mx=x的解。

M M M非常大的时候,解 M M M需要用到power method方法:
随机找一个vector记为 x 0 x_0 x0,只要他们的和为1,那么,进行一下操作:
在这里插入图片描述当k趋近于无穷大时,就很接近那个特征向量了。

4. 参考文献

  • 李弘毅-线性代数
  • 维基百科
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值