PageRank Algorithm (1)

1. PageRank简介

     1998年,斯坦福大学的博士研究生Sergey Brin和Lawrence Page提出了网络链接分析的一个新算法PageRank。对一个特定的查询,搜索结果的排名取决于两组信息,关于 网页的质量(链接到该网页的数量和来自重要网页的链接) ,和这个查询与每个 网页的相关性 信息,以下主要讨论网页质量。


2.PageRank算法描述

     假定向量B=(b1,b2,b3...bn)为第一,第二,...第N个页面的网页排名。矩阵

                                                                                                                  

为网页之间链接的数目,其中amn代表第m个网页指向第n个网页的链接数。A是已知的,B是未知的,正是2我们所要计算的。假定Bi是第i此迭代的结果,那么

                            Bi=A*Bi-1

初始假设:所有网页的排名都是1/N,即B0=(1/N,1/N,…, 1/N)。

通过简单的矩阵运算,可以得到B1,B2,...。可以证明Bi最终会收敛,即Bi无限趋近与B,此时:B=AXB。因此,当两次迭代的结果Bi和Bi-1之间的差异非常小,接近于零时,停止迭代运算,算法结束。一般来讲,只要10次左右的迭代基本上就收敛了。

由于网页之间链接的数量相比互联网的规模非常稀疏,因此计算网页的网页排名也需要对零概率或者小概率事件进行平滑处理。网页的排名是个一维向量,对它的平滑处理只需要一个小的常数a。这时,公式变成

                                   Bi=[a*I/N+(1-a)A].Bi-1

其中N是互联网网页的数量,a是一个较小的常数,I是单位矩阵。

网页排名计算主要是矩阵相乘,这种计算很容易分解成许多小任务,并行处理。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值