什么是pageRank
- pageRank是google提出的算法,用于衡量特定网页相对于搜索引擎中的其它网页而言的重要程度
- 实现了将链接价值概念作为排名因素
算法原理:
-
入链 === 投票
- pageRank让链接来投票,到一个页面的超链接相当于对该页投一票
-
入链数量
- 如果一个页面节点接收到的其它网页指向的入链数量越多,那么这个页面越重要
-
入链质量
- 指向页面A的入链质量不同,质量高的页面会用过链接向其他页面传递更多的权重,所以越是质量高的页面指向页面A,则页面A越重要
-
初始值
- google的每个页面设置相同的PR值
- pageRank算法给每个页面的PR初始值为1
-
迭代算法
- google不断的重复计算每个页面的pageRank。那么经过不断的重复计算,这些页面的PR值会趋向于稳定,即收敛状态
- 在具体企业中应怎样确定收敛标准
- 每个页面的PR值和上一次计算的PR值相等
- 设定一个差值标准(0.0001)。当所有页面和上一次计算的PR差值平均小于该标准时,则收敛
- 设定一个百分比(99%).当99%的页面和上一次计算的PR相等。
-
站在互联网的角度:
- 只出不入:PR值会为0
- 只入不出:PR值会很高
- 直接访问网页
-
修正了pageRank计算公式,增加阻尼系数
- 在公式的基础上简单增加了阻尼系数(damping factor) d
- 一般取之为d=0.85
-完整的pageRank计算公式 - d:阻尼系数
- M(i) 指向i的页面集合
- L(j):页面的出链数
- PR(pj):j页面的PR值
- n:所有的页面数