PageRank,网页排名,又称网页级别,由Google的创始人拉里·佩奇和谢尔盖·布林于1998年在斯坦福大学提出。是一种由根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一。Google用它来体现网页的相关性和重要性,在搜索引擎优化操作中是经常被用来评估网页优化的成效因素之一。
PageRank通过网络浩瀚的超链接关系来确定一个页面的等级。Google把从A页面到B页面的链接解释为A页面给B页面投票,Google根据投票来源(甚至来源的来源,即链接到A页面的页面)和投票目标的等级来决定新的等级。简单的说,一个高等级的页面可以使其他低等级页面的等级提升。
PageRank通过网络浩瀚的超链接关系来确定一个页面的等级。Google把从A页面到B页面的链接解释为A页面给B页面投票,Google根据投票来源(甚至来源的来源,即链接到A页面的页面)和投票目标的等级来决定新的等级。简单的说,一个高等级的页面可以使其他低等级页面的等级提升。
本程序是PageRank在hadoop的mapreduce上实现的结果。截图为迭代计算结果,迭代次数越多,数值越稳定。
程序包括两个类,一个是PageRank类一个是PageRankIter类,前一个类负责进行Mapreduce上的程序逻辑处理,后一个进行迭代次数以及目录生成控制(hadoop的输出文件夹不能事先存在,必须运行时生成。而且由于迭代需要我们要使上一次的输出目录成为下一次的输入目录参数)。源代码稍后公开。