使用MapReduce实现Pagerank算法

最新推荐文章于 2021-03-31 17:01:01 发布

chjjunking

最新推荐文章于 2021-03-31 17:01:01 发布

阅读量5.1k

点赞数

分类专栏： hadoop 文章标签： mapreduce 算法 output input each 搜索引擎

hadoop 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

Pagerank算法的介绍可以参考 Wikipedia。网络上很多关于Pagerank的原理介绍，但关于该算法的具体实现的资料却很缺乏。这两天我花了一些时间仔细琢磨了这个算法的具体实现。其中一种方法是基于内存实现的，前提是链接的节点ID都能够载入内存（可以用签名或者编号代替链接），那么链接关系对数据可以从外部文件顺序读入，即可在内存完成一轮计算，并通过反复遍历链接关系对文件，进行迭代，直到收敛。但这种方法需要很大的内存，且在搜索引擎的海量链接中，这种方法会有很大的局限性。很自然，我们会想通过Mapreduce这种方式来实现大规模数据的并行计算。而这方面资料比较少，我简单整理并思考了一下使用Mapreduce实现Pagerank算法的基本方法，记录如下，与大家分享，欢迎大家指正。

网页数据的预处理部分略过不提，假设我们已经得到了链接对，并且给前链赋上PR初值（规模较小时，初值0.5效果已经不错）。对于迭代过程的Map/Reduce可以用伪码（Pseudo）表示如下：

Mapper函数的伪码：

input <PageN, RankN> -> PageA, PageB, PageC ... // 链接关系
begin
    Nn := the number of outlinks for PageN;
    for each outlink PageK
        output PageK -> <PageN, RankN/Nn>
    // 同时输出链接关系，用于迭代
    output PageN -> PageA, PageB, PageC ...
end

Mapper的输出如下（已经排序，所以PageK的数据排在一起，最后一列则是链接关系对）：

PageK -> <PageN1, RankN1/Nn1>
PageK -> <PageN2, RankN2/Nn2>
...
PageK -> <PageAk, PageBk, PageCk>

Reduce函数的伪码：

input mapper's output // 如上面的说明
begin
    RankK := 0;
    for each inlink PageNi
        RankK += RankNi/Nni * beta
    // output the PageK and its new Rank for the next iteration
    output <PageK, RankK> -> <PageAk, PageBk, PageCk...>
end

至此，Map/Reduce函数就完成，我们只需要不断迭代，直接其收敛就可以。收敛函数简单的判定方法可以选择前后两次计算的PR值的误差绝对值之和小于一定阈值。

上面这个Map/Reduce是最基本的方法，具体实践中还有很大的优化空间。关于优化算法留待具体工作中再做考虑。

转载自：http://hi.baidu.com/internetview/blog/item/579ebf00204f06da267fb531.html