一、什么是PageRankPageRPageRankankPageRank
–
PageRank
是
Google
专有的算法,用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度
。
–
是
Google
创始人拉里
·
佩奇和谢尔盖
·
布林于
1997
年创造的
–
PageRank
实现了将
链接价值概念
作为排名因素。
二、原理
二、原理
–
入
链
====
投票
•
PageRank
让链接
来
“
投票
“
,到一个页面的超链接相当于对该页投一
票。
–
入链数量
•
如果一个页面节点接收到的其他网页指向的入链数量越多,那么这个页面越重要。
–
入链质量
•
指向页面
A
的入链质量不同,质量高的页面会通过链接向其他页面传递更多的权重。所以越是质量高的页面指向页面
A
,则页面
A
越重要。
三、举例说明
如下图所示,A、B、C、D分别代表四个网页。A指向B代表A网页中有一个指向B网页的超链接。
四、算法
三、举例说明
如下图所示,A、B、C、D分别代表四个网页。A指向B代表A网页中有一个指向B网页的超链接。
–
初始值
•
每个页面设置相同
的
PR
值
•
Google
的
pagerank
算法给每个页面的
PR
初始值为
1
。
–
迭代递归
计算(收敛)
•
Google
不断的重复计算每个页面的
PageRank
。那么
经过不断的重复计算,这些页面的
PR
值会趋向于稳定,也就是收敛的状态
。
•
在具体企业应用中怎么样确定收敛标准?
–
1
、每个页面的
PR
值和上一次计算的
PR
相等
–
2
、设定一个差值指标(
0.0001
)。当所有页面和上一次计算的
PR
差值平均小于该标准时,则收敛。
–
3
、设定一个百分比(
99%
),当
99%
的页面和上一次计算的
PR
相等
–
修正
PageRank
计算
公式
•
由于存在一些出链为
0
,也就是那些不链接任何其他网页的网,也称为孤立网页,使得很多网页能被访问到。因此需要对
PageRank
公式进行修正,即在简单公式的基础上增加了阻尼系数(
damping factor
)
q
,
q
一般取值
q=0.85
。
–
完整
PageRank
计算公式