文章目录
一、实战概述
-
本实战项目采用Hadoop MapReduce技术处理学生月考成绩数据,旨在计算每位同学语文、数学和英语三科的平均分。首先,在虚拟机上准备了三个文本文件分别记录各科成绩,并将这些文件上传至HDFS指定目录
/subjectavg/input
中。 -
通过IntelliJ IDEA创建名为
MRSubjectAvg
的Maven项目,配置依赖于Apache Hadoop 3.3.4版本客户端及JUnit测试框架。在项目中定义了一个Student
实体类,该类实现Writable接口以便于序列化与反序列化,包含学生姓名以及三科成绩属性。 -
映射器
SubjectAvgMapper
继承自Mapper<LongWritable, Text, Text, Student
>,其功能是从不同科目成绩文件中读取行数据并解析出学生姓名和对应科目的分数,封装成Student
对象输出。归并器SubjectAvgReducer
则继承自Reducer<Text, Student, Text, NullWritable>
,负责聚合相同学生的所有成绩记录,计算每科总成绩后求得平均分。 -
同时,配置日志系统以方便调试。运行MapReduce作业时,程序会读取HDFS中的原始成绩数据,经过映射阶段区分科目类型、累加成绩,接着在归并阶段计算平均分并将结果写入到最终输出文件。完成整个流程后,可获得每个学生的各科平均成绩报告。
二、提出任务
- 语文月考成绩 -
chinese.txt
1 张晓云 89
2 张晓云 73
3 张晓云 67
4 张晓云 70
5 张晓云 79
6 张晓云 87
7 张晓云 99
8 张晓云 83
9 张晓云 97
10 张晓云 92
11 张晓云 67
12 张晓云 86
1 王东林 49
2 王东林 83
3 王东林 67
4 王东林 49
5 王东林 93
6 王东林 87
7 王东林 65
8 王东林 92
9 王东林 60
10 王东林 94
11 王东林 81
12 王东林 90
1 李宏宇 77
2 李宏宇 66
3 李宏宇 89
4 李宏宇 87
5 李宏宇 96
6 李宏宇 79
7 李宏宇 87
8 李宏宇 96
9 李宏宇 69
10 李宏宇 87
11 李宏宇 96
12 李宏宇 79
- 数学月考成绩 -
math.txt
1 张晓云 79
2 张晓云 83
3 张晓云 77
4 张晓云 90
5 张晓云 89
6 张晓云 67
7 张晓云 89
8 张晓云 93
9 张晓云 90
10 张晓云 82
11 张晓云 77
12 张晓云 96
1 王东林 78
2 王东林 94
3 王东林 76
4 王东林 70
5 王东林 90
6 王东林 83
7 王东林 85
8 王东林 82
9 王东林 84
10 王东林 78
11 王东林 99
12 王东林 93
1 李宏宇 86
2 李宏宇 81
3 李宏宇 76
4 李宏宇 93
5 李宏宇 88
6 李宏宇 82
7 李宏宇 81
8 李宏宇 93
9 李宏宇 86
10 李宏宇 90
11 李宏宇 67
12 李宏宇 88
- 英语月考成绩 -
english.txt
1 张晓云 78
2 张晓云 83
3 张晓云 92
4 张晓云 66
5 张晓云 82
6 张晓云 89
7 张晓云 79
8 张晓云 68
9 张晓云 96
10 张晓云 91
11 张晓云 87
12 张晓云 82
1 王东林 69
2 王东林 86
3 王东林 73
4 王东林 99
5 王东林 67
6 王东林 95
7 王东林 74
8 王东林 92
9 王东林 76
10 王东林 88
11 王东林 92
12 王东林 56
1 李宏宇 88
2 李宏宇 78
3 李宏宇 92
4 李宏宇 78
5 李宏宇 89
6 李宏宇 76
7 李宏宇 92
8 李宏宇 75
9 李宏宇 88
10 李宏宇 92
11 李宏宇 97
12 李宏宇 85
- 统计每个同学各科月考平均分
三、完成任务
(一)准备数据
1、在虚拟机上创建文本文件
创建subjectavg
目录,在里面创建chinese.txt
文件(数据没有显示全)
-
创建
math.txt
(数据没有显示全)
-
创建
english.txt
(数据没有显示全)
2、上传文件到HDFS指定目录
- 创建
/subjectavg/input
目录,执行命令:hdfs dfs -mkdir -p /subjectavg/input
- 将文本文件
chinese.txt
、math.txt
与english.txt
,上传到HDFS的/subjectavg/input
目录
(二)实现步骤
- 说明:集成开发环境IntelliJ IDEA版本 -
2022.3
1、创建Maven项目
-
Maven项目 -
MRSubjectAvg
,设置了JDK版本 -1.8
,组标识 -net.huawei.mr
-
单击【Create】按钮,得到初始化项目
2、添加相关依赖
- 在
pom.xml
文件里添加hadoop-client
和junit
依赖
<dependencies>
<!--hadoop客户端-->
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
<version>3.3.4</version>
</dependency>
<!--单元测试框架-->
<dependency>
<groupId>junit</groupId>
<artifactId>junit</artifactId>
<version>4.13.2</version>
</dependency>
</dependencies>
- 刷洗项目依赖
3、创建日志属性文件
- 在
resources
目录里创建log4j.properties
文件
log4j.rootLogger=ERROR, stdout, logfile
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n
log4j.appender.logfile=org.apache.log4j.FileAppender
log4j.appender.logfile.File=target/subjectavg.log
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n
4、创建学生实体类
- 创建
net.huawei.mr
包,在包里创建Student
类
- 注意:学生实体类必须实现
Writable
接口,才能作为Mapper和Reducer的输出值类型
package net.huawei.mr;
import org.apache.hadoop.io.Writable;
import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;
/**
* 功能:学生实体类
* 作者:华卫
* 日期:2024年01月08日
*/
public class Student implements Writable {
private String name;
private int chinese;
private int math;
private int english;
public String getName() {
return name;
}
public void setName(String name) {
this.name = name;
}
public int getChinese() {
return chinese;
}
public void setChinese(int chinese) {
this.chinese = chinese;
}
public int getMath() {
return math;
}
public void setMath(int math) {
this.math = math;
}
public int getEnglish() {
return english;
}
public void setEnglish(int english) {
this.english = english;
}
@Override
public String toString() {
return "Student{" +
"name='" + name + '\'' +
", chinese=" + chinese +
", math=" + math +
", english=" + english +
'}';
}
@Override
public void write(DataOutput out) throws IOException {
out.writeUTF(name);
out.writeInt(chinese);
out.writeInt(math);
out.writeInt(english);
}
@Override
public void readFields(DataInput in) throws IOException {
name = in.readUTF();
chinese = in.readInt();
math = in.readInt();
english = in.readInt();
}
}
- 这段Java代码定义了一个名为
Student
的类,该类实现org.apache.hadoop.io.Writable
接口,这是Hadoop MapReduce框架中的一个关键接口,用于序列化和反序列化数据。在MapReduce中,用户自定义的数据类型需要实现Writable接口以便于在网络间传输或存储到HDFS。
1.类属性说明
name
: 学生姓名,类型为Stringchinese
: 学生的语文成绩,类型为intmath
: 学生的数学成绩,类型为intenglish
: 学生的英语成绩,类型为int
2.方法说明
-
getName()
和setName(String name)
: 用于获取和设置学生姓名 -
getChinese()
、setChinese(int chinese)
等其他getter和setter方法对应于成绩属性的获取与设置 -
toString()
: 方法提供了对象的字符串表示形式,方便输出或调试时查看对象内容。 -
write(DataOutput out) throws IOException
: 实现Writable接口的方法,负责将Student对象的各个字段写入DataOutput(例如文件输出流或网络输出流),以进行序列化操作。 -
readFields(DataInput in) throws IOException
: 同样是Writable接口的方法,负责从DataInput(例如文件输入流或网络输入流)中读取并反序列化各个字段,还原成Student对象。 -
综上所述,这个
Student
类被设计用来在Hadoop MapReduce程序中表示学生的姓名及其各科成绩,并通过实现Writable接口支持在Hadoop生态系统内进行数据的序列化和反序列化操作。
5、创建科目平均分映射器类
-
在
net.huawei.mr
包里创建SubjectAvgMapper
类
-
由于MR程序读取
/subjectavg/input
目录里的三个科目成绩文件,在Mapper获取文件切片时就要区分读取的是哪一个文件,可以通过context
的getInputSplit()
方法获得文件切片对象,由此可以获取该切片对应的文件名,从而知道读取的是哪一科的成绩文件。
package net.huawei.mr;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;
import java.io.IOException;
/**
* 功能:科目平均分映射器类
* 作者:华卫
* 日期:2024年01月08日
*/
public class SubjectAvgMapper extends Mapper<LongWritable, Text, Text, Student> {
@Override
protected void map(LongWritable key, Text value, Context context)
throws IOException, InterruptedException {
// 获取文件切片对象(将输入切片强转成文件切片)
FileSplit split = (FileSplit) context.getInputSplit();
// 获取文件切片对应的文件名
String filename = split.getPath().getName();
// 获取行内容
String line = value.toString();
// 拆分行获取成绩数据
String[] fields = line.split(" ");
String name = fields[1]; // 第2个字段
int score = Integer.parseInt(fields[2]); // 第3个字段转成整数
// 创建学生对象
Student student = new Student();
// 设置学生对象属性
student.setName(name);
// 根据文件切片对应的文件名决定什么科目成绩
if (filename.contains("chinese")) {
student.setChinese(score); // 语文成绩
} else if (filename.contains("math")) {
student.setMath(score); // 数学成绩
} else {
student.setEnglish(score); // 英语成绩
}
// 将<name,student>键值对象写入中间结果
context.write(new Text(name), student);
}
}
- 这段代码定义了一个名为
SubjectAvgMapper
的类,它继承自Hadoop MapReduce
框架中的Mapper<LongWritable, Text, Text, Student>
类。这个映射器的主要功能是从不同科目的成绩文件中读取数据,并将每条记录转换为键值对输出到中间结果,以便后续的Reducer进行聚合操作。
1.代码逻辑说明
-
输入键类型是
LongWritable
,这是Hadoop默认文本文件输入格式(TextInputFormat)提供的行号。 -
输入值类型是
Text
,表示每一行的原始文本内容。 -
输出键类型是
Text
,这里用于存储学生的姓名。 -
输出值类型是自定义的
Student
对象,包含了学生的各科成绩信息。
map()
方法代码说明 -
首先获取当前处理的数据所在的文件切片
(FileSplit)
,并从中获取文件名。 -
然后解析输入行的内容,按照空格分割字段,提取出学生姓名和分数。
-
创建一个
Student
对象,并根据文件名判断该成绩对应的是哪一科目,然后设置相应的成绩属性。 -
最后,将学生姓名作为键,自定义的
Student
对象作为值写入到中间结果,供Reducer
阶段使用。 -
通过这种方式,该映射器能够从不同的科目成绩文件中提取出学生姓名及其对应的各科成绩,并以统一的键值对形式输出,便于进一步计算每个学生的各科平均分。
6、创建科目平均分归并器类
- 在
net.huawei.mr
包里创建SubjectAvgReducer
类
package net.huawei.mr;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
import java.io.IOException;
import java.text.DecimalFormat;
/**
* 功能:科目平均分归并器类
* 作者:华卫
* 日期:2024年01月08日
*/
public class SubjectAvgReducer extends Reducer<Text, Student, Text, NullWritable> {
@Override
protected void reduce(Text key, Iterable<Student> values, Context context)
throws IOException, InterruptedException {
// 创建学生对象
Student student = new Student();
// 设置学生姓名
student.setName(key.toString());
// 遍历值迭代器,累加各科成绩
for (Student value : values) {
student.setChinese(student.getChinese() + value.getChinese()); // 累加语文成绩
student.setMath(student.getMath() + value.getMath()); // 累加数学成绩
student.setEnglish(student.getEnglish() + value.getEnglish()); // 累加英语成绩
}
// 创建小数格式对象
DecimalFormat df = new DecimalFormat("#.0");
// 计算学生各科平均分
double avgChinese = student.getChinese() / 12.0;
double avgMath = student.getMath() / 12.0;
double avgEnglish = student.getEnglish() / 12.0;
// 拼接学生成绩信息
String studentScore = student.getName() + "\t" + df.format(avgChinese)
+ "\t" + df.format(avgMath) + "\t" + df.format(avgEnglish);
// 将<studentScore,null>键值对写入结果文件
context.write(new Text(studentScore), NullWritable.get());
}
}
- 这段代码是基于
Hadoop MapReduce
框架的Java程序,实现了一个Reducer类——SubjectAvgReducer
,它的功能是在Map阶段处理后的中间结果上进行归并计算,最终得出每个学生的各科平均分。
1.类定义
- 类名:
SubjectAvgReducer
- 继承自
org.apache.hadoop.mapreduce.Reducer<Text, Student, Text, NullWritable>
,表明Reducer输入键值对类型为<Text, Student>
(其中Text
代表学生姓名,Student
是一个自定义类型,包含学生各科成绩信息),输出键值对类型为<Text, NullWritable>
(Text
用来存储格式化后的学生成绩信息,NullWritable
表示不需要写入任何实际值)。
2.reduce方法
- 输入参数:
–key
: 文本类型,表示学生姓名。
–values
: 学生对象迭代器,包含了所有同名学生的各科成绩集合。
–context
: Hadoop上下文对象,用于将计算结果写入到输出文件中。
3.累加各科成绩
- 遍历
values
中的每个Student
实例,并将其对应科目的成绩累加到一个临时的学生对象student
上。这里假设了每个学生有12次考试的成绩需要求平均分。
4.创建小数格式对象
- 使用
DecimalFormat
类创建一个格式化对象,设定模式为"#.0"以确保每科平均分保留一位小数。
5.计算平均分
- 分别计算语文、数学和英语三科的总成绩除以12.0得到平均分。
6.拼接学生成绩信息
- 使用
df.format()
方法将计算出的平均分格式化为字符串,并与学生姓名拼接成一个字符串studentScore
。
7.输出结果
-
将格式化后的学生成绩信息作为新的键值对
<studentScore, null>
写入到最终结果文件中,其中null是因为我们在这里只需要写出学生的成绩信息,不需要对应的值。使用NullWritable.get()
获取NullWritable
类型的实例。 -
通过这个Reducer类,Hadoop会按照学生姓名对中间结果进行归并,最后得到每个学生各科的平均分数并写入输出文件。
7、创建科目平均分驱动器类
- 在
net.huawei.m
r包里创建SubjectAvgDriver
类
package net.huawei.mr;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import java.net.URI;
/**
* 功能:科目平均分驱动器类
* 作者:华卫
* 日期:2024年01月08日
*/
public class SubjectAvgDriver {
public static void main(String[] args) throws Exception {
// 创建配置对象
Configuration conf = new Configuration();
// 设置客户端使用数据节点主机名属性
conf.set("dfs.client.use.datanode.hostname", "true");
// 获取作业实例
Job job = Job.getInstance(conf);
// 设置作业启动类
job.setJarByClass(SubjectAvgDriver.class);
// 设置Mapper类
job.setMapperClass(SubjectAvgMapper.class);
// 设置map任务输出键类型
job.setMapOutputKeyClass(Text.class);
// 设置map任务输出值类型
job.setMapOutputValueClass(Student.class);
// 设置Reducer类
job.setReducerClass(SubjectAvgReducer.class);
// 设置reduce任务输出键类型
job.setOutputKeyClass(Text.class);
// 设置reduce任务输出值类型
job.setOutputValueClass(NullWritable.class);
// 定义uri字符串
String uri = "hdfs://master:9000";
// 创建输入目录
Path inputPath = new Path(uri + "/subjectavg/input");
// 创建输出目录
Path outputPath = new Path(uri + "/subjectavg/output");
// 获取文件系统
FileSystem fs = FileSystem.get(new URI(uri), conf);
// 删除输出目录(第二个参数设置是否递归)
fs.delete(outputPath, true);
// 给作业添加输入目录(允许多个)
FileInputFormat.addInputPath(job, inputPath);
// 给作业设置输出目录(只能一个)
FileOutputFormat.setOutputPath(job, outputPath);
// 等待作业完成
job.waitForCompletion(true);
// 输出统计结果
System.out.println("======统计结果======");
FileStatus[] fileStatuses = fs.listStatus(outputPath);
for (int i = 1; i < fileStatuses.length; i++) {
// 输出结果文件路径
System.out.println(fileStatuses[i].getPath());
// 获取文件系统数据字节输入流
FSDataInputStream in = fs.open(fileStatuses[i].getPath());
// 将结果文件显示在控制台
IOUtils.copyBytes(in, System.out, 4096, false);
}
}
}
- 这段代码是Hadoop MapReduce框架中的驱动器类(Driver),名为
SubjectAvgDriver
,用于配置和执行一个MapReduce作业以计算学生的科目平均分。整个流程包括:
1.创建配置对象:初始化一个Configuration
对象,并设置HDFS客户端的相关属性,如dfs.client.use.datanode.hostname
为"true"。
2.构建Job实例:使用配置对象创建一个Job实例,这是MapReduce
作业的入口点,并通过job.setJarByClass()
方法指定包含主类的JAR包。
3.设置Mapper与Reducer类:分别调用job.setMapperClass()
和job.setReducerClass()
来指定处理输入数据的Mapper阶段类(SubjectAvgMapper)
和聚合数据的Reducer
阶段类(SubjectAvgReducer)
。
4.设置输出键值类型:配置Mapper的输出键值类型以及Reducer的输出键值类型,确保与Mapper和Reducer中实现的数据类型相匹配。
5.定义输入输出路径:通过字符串URI设置HDFS上的输入目录和输出目录。
6.文件系统操作:
- 连接到HDFS文件系统。
- 删除输出目录,以防存在旧结果而覆盖新的统计结果。
- 添加输入路径到作业,以便读取数据源。
- 设置作业的输出路径。
7.提交并监控作业:调用job.waitForCompletion(true)
来提交作业并等待其完成。这个方法会阻塞直到作业结束,同时会报告作业是否成功完成。
8.输出统计结果:
-
一旦作业完成,遍历输出目录下的所有文件(通常是一个或多个part-r-*.txt文件)。
-
打开每个输出文件,使用
IOUtils.copyBytes()
将文件内容复制到控制台输出,从而显示统计结果。 -
整体而言,此驱动程序负责组织和管理整个MapReduce作业的生命周期,从设置作业参数、连接HDFS文件系统到最终展示处理后的统计结果。
8、启动应用,查看结果
- 运行
SubjectAvgDriver
类,看到四列数据
四、实战总结
- 本实战项目利用Hadoop MapReduce框架,处理分散在不同文件中的学生月考成绩数据,高效计算每位同学语文、数学、英语三科的平均分。通过创建
Student
实体类实现Writable接口,映射器解析输入文本提取成绩信息,归并器对同名学生各科成绩进行累加后求平均值。日志系统辅助调试优化。最终运行MapReduce作业,从HDFS读取原始数据,输出每位学生的各科平均成绩报告