PageRank,网页排名,又称网页级别、Google左侧排名或佩奇排名,是一种由[1]
根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一,以Google公司创办人拉里·佩奇(Larry Page)之姓来命名。
其他算法还有:
一、Hilltop
算法
二、ExpertRank
三、HITS
四、TrustRank
Page Rank通过迭代计算q值,直到q值变化范围越来越小,就达到目的效果。
因为数据量大,n个链接就会产生nxn的一个矩阵,计算量太大。这是采取分布式计算,单台计算节点,只计算一个,这部分就是Map。譬如第一台计算机,只计算4个链接,第二台计算3个,第三台计算2个等。计算出的多个q值,传送到一起。多个q1放在一起,多个q2放在一起。然后统一做平均(有可能是加权平均),然后将得出的新的q1,q2等再反馈给各个计算节点,这部分就是Reduce。各个计算节点再进行第二次矩阵q值计算。当Reduce拿到的新老q值差距比较小,一般设定一个范围,小于这个范围,就认定我们拿到了想要的算法结果,即可返回。