PageRank算法的MapReduce实现（输入有向图，迭代收敛）

本文链接：https://blog.csdn.net/As_zyh/article/details/122155426

本文介绍了如何使用MapReduce实现PageRank算法，详细阐述了网页有向图的邻接表输入，以及Map和Reduce阶段的处理过程。在Reduce阶段，为解决终止点和陷阱问题，引入了概率a来调整PR值。通过设定最大迭代次数和PR值收敛条件（max | Pi j - P i j-1| < epi），在第14轮迭代时，程序判断PR值已收敛，达到预期效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

输入为网页有向图的邻接表：
![在这里插入图片描述](https://img-blog.csdnimg.cn/fa08d337ffb344098a30f2ebbb6b1333.png

通过统计输入文件的行数，即可得之网页总数为4

每个网页的初值为1/N，即0.25

第一行输入经过map处理后，得到如下结果：

B 0.0833
C 0.0833
D 0.0833

同理，第二三四行经过map处理后，得到：

A 0.125
D 0.125

C 0.25

B 0.125
C 0.125

系统会自动对map的输出进行shuflle处理，即对key进行排序，将相同key的value合并成一个列表。
即

A 0.125
B 0.0833 0.125
C 0.0833 0.25 0.125
D 0.0833 0.125 0.125

此时出现一个疑问：

为什么要进行这一步，而不是直接将相同key的value进行加和呢？

是为了MapReduce编程的可扩展性，在已知PageRank任务的前提下，我们知道要对相同key的value进行加和，如果是求最大值的任务呢？

所以把对value列表的操作交给reduce，我们要怎么操作这些列表，只要对reduce进行编写即可。

为解决网页间的终止点问题和陷阱问题，需要在reduce中进行如下处理（网页没有出链或者出链只有自己，pr值迭代后只增不减）

假设：上网者通过出链访问其他网页的概率为a，通过地址栏随机访问页面的概率为(1-a)

所以，在reduce过程，某网页pr变换为：

a *（接收其他网页发送来的pr值） + (1-a) * 1/N

经过reduce处理后，网页的pr值为
A = 0.8 * 0.125 + 0.2 * 0.25 = 0.15
B = 0.8 * (0.0833 + 0.125) + 0.2 * 0.25 = 0.216
C = 0.8 * (0.0833 + 0.25) + 0.2 * 0.25 = 0.416
D = 0.8 * (0.0833 + 0.125 + 0.125) + 0.2 * 0.25 = 0.216

此时一轮迭代结束，将reduce的结果输出
在这里插入图片描述

那么何时停止迭代呢？

要么到达最大迭代次数，要么pr值的变化已经收敛（pr值的曲线图趋于水平）

如何判断pr值收敛：

设置一个参数epi，若 max | P_i _j - P _i _j-1| < epi ,则说明pr值的变化已经收敛。

完整的程序如下：(支持eclipse Run on Hadoop，不支持yarn -jar运行，因为yarn -jar运行时，只能访问类中static变量的初始值，若在程序运行时对static变量的值进行更改，则map/reduce中得到的变量值还是旧值)

package test02;

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.util.HashMap;
import java.util.StringTokenizer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;

public class PageRank_02 {
   

	private static int N = 1;
	private static float a = 0.8f;
	private static int maxIteration = 40;
	private static float epi = 0.000001f;
	private static HashMap