学习这个案例的目的:掌握mr程序是可以进行迭代计算的,但是要给它一个停下来的标准。
PageRank是什么
PageRank(网页排名)是Google提出的算法,用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度,是 Google 对网页重要性、价值的评估。是Google创始人拉里·佩奇和谢尔盖·布林于1997年创造的。PageRank实现了将链接价值概念作为排名因素。http://pr.chinaz.com/
扩展:
PR值的提高可有效提升你的网页在Google搜索引擎中的页面排名,但并不是说PR越高则排名越靠前。有一些网站尽管PR不算高,但却较一些PR高的网站排名还要靠前。所以你应该在对网站优化的同时,也要努力提高网站的PR值。提高PR最佳和最简单的办法在于:
1. 提供有趣、有价值的网站内容,这样站长们会主动和你进行友情链接,从而提高你的外部链接值。
2. 将网站提交到各大搜索引擎,这样可显著改善你的网站在Google上的排名。
3. 可将网站添加到行业门户站点、网上论坛、留言簿等等各种允许添加网址链接的地方。
4. 与其他网站交换链接来提高链接权值。
5. 与其他网站交换链接时首先要查看对方站点是否被Google删除,或是否被Google收录,没有被Google收录的站点最好不要做连接。
PR计算逻辑
算法原理(1)
思考超链接在互联网中的作用?入链 ====给?的投票 出链PageRank让链接来“投票“,到一个页面的超链接相当于对该页投一票。
入链数量:如果一个页面节点接收到的其他网页指向的入链数量越多,那么这个页面越重要。
入链质量:指向页面A的入链质量不同,质量高的页面会通过链接向其他页面传递更多的权重。所以越是质量高的页面指向页面A,则页面A越重要。
网络上各个页面的链接图:
站在A的角度:
需要将自己的PR值分给B,D。
站在B的角度:
收到来自A,C,D的PR值。
PR需要迭代计算:其PR值会趋于稳定。
- 算法原理(2)
初始值:Google的每个页面设置相同的页面价值,即PR值pagerank算法给每个页面的PR初始值为1。迭代计算(收敛):Google不断的重复计算每个页面的PageRank。那么经过不断的重复计算,这些页面的PR值会趋向于稳定,也就是收敛的状态。在具体企业应用中怎么样确定收敛标准?1、每个页面的PR值和上一次计算的PR相等。2、设定一个差值指标(0.0001)。当所有页面和上一次计算的PR差值平均小于该标准时,则收敛。3、设定一个百分比(99%),当99%的页面和上一次计算的PR相等。
- 算法原理(3)
站在互联网的角度:只出,不入:PR会为0。只入,不出:PR会很高。直接访问网页:pagerank并不能百分百的表示页面价值,如果是直接访问某个网址的话,就不能像在a标签那样统计对它的点击,但是这种直接访问的方式,也会对页面价值产生影响,因此页面价值的计算不光要考虑入链出链,要考虑综合情况,要修正我们之前的计算方式。为修正PageRank计算公式,增加阻尼系数在简单公式的基础上增加了阻尼系数(damping factor)d一般取值d=0.85。完整PageRank计算公式:d&#x