MapReduce计算课程成绩平均数

她说你的昵称不合法

已于 2024-05-11 14:44:12 修改

阅读量2.5k

点赞数 57

文章标签： mapreduce 大数据

于 2024-05-11 14:39:48 首次发布

本文链接：https://blog.csdn.net/qq_74311623/article/details/138714638

版权

前言

MapReduce是Hadoop框架中的编程模型，用于处理和分析大规模数据集。在本篇博客中，我们将介绍如何使用MapReduce来计算课程成绩的平均数。我们将通过编写Mapper和Reducer类，处理输入数据，并最终得到每个课程的平均成绩。

题目

一、Mapper阶段的实现

Mapper阶段的主要任务是将输入数据解析为键值对的形式，并输出给Reducer阶段。在本例中，我们假设输入数据是CSV格式的文件，每行包含学生ID、课程名和成绩。Mapper类WordCountMap继承自Mapper，并定义了输入和输出的键值对类型为LongWritable、Text和Text、IntWritable。

在map方法中，我们首先将输入的Text对象转换为字符串，并使用StringTokenizer按逗号分隔符进行解析。我们跳过第一个字段（学生ID），然后获取课程名和成绩，并将它们分别设置为course和score对象的值。最后，我们通过context.write方法将课程名和成绩作为键值对输出。

// 导入必要的类
package com.hadoop.mapreduce.wordcount;

import java.io.IOException;
import java.util.StringTokenizer;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

// 定义 WordCountMap 类，继承自 Mapper 类
public class WordCountMap extends Mapper<LongWritable, Text, Text, IntWritable> {

    // 声明 Text 类型的变量 course，用于存储课程名称
    private Text course = new Text();
    // 声明 IntWritable 类型的变量 score，用于存储分数
    private IntWritable score = new IntWritable();

    // 重写 map 方法，处理输入的键值对
    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        // 将 Text 类型的 value 转换为 String 类型
        String line = value.toString();
        // 使用 StringTokenizer 对行进行分词，按逗号分隔
        StringTokenizer itr = new StringTokenizer(line, ",");

        // 如果分词后的数量大于等于 3
        if (itr.countTokens() >= 3) {
            // 跳过第一个分词（假设是学生ID）
            itr.nextToken();
            // 获取课程名称
            String courseName = itr.nextToken();
            // 获取分数并转换为整数类型
            int scoreValue = Integer.parseInt(itr.nextToken());

            // 将课程名称设置到 Text 类型的变量 course 中
            course.set(courseName);
            // 将分数设置到 IntWritable 类型的变量 score 中
            score.set(scoreValue);
            // 将课程名称和分数作为输出键值对写入 Context 中
            context.write(course, score);
        }
    }
}

需要注意的是，我们在这里并没有直接计算平均数，而是将每个课程的成绩作为独立的键值对输出。这是因为MapReduce模型的设计思路是将计算任务分解为多个子任务，并在集群中的多个节点上并行执行。通过Mapper阶段的处理，我们为Reducer阶段提供了必要的输入数据。

二、Reducer阶段的实现

Reducer阶段负责接收Mapper输出的键值对，并对具有相同键的所有值进行聚合操作。在本例中，Reducer类WordCountReduce继承自Reducer，并定义了输入和输出的键值对类型为Text、IntWritable和Text、IntWritable。

在reduce方法中，我们遍历输入值的迭代器，计算每个课程的成绩总和和成绩数量。然后，我们计算平均成绩，并将其设置为average对象的值。最后，我们通过context.write方法将课程名和平均成绩作为键值对输出。

// 导入必要的类
package com.hadoop.mapreduce.wordcount;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
import java.io.IOException;
import java.util.Iterator;

// 定义 WordCountReduce 类，继承自 Reducer 类
public class WordCountReduce extends Reducer<Text, IntWritable, Text, IntWritable> {
    // 声明 IntWritable 类型的变量 average，用于存储平均值
    private IntWritable average = new IntWritable();

    // 重写 reduce 方法，对相同键的值进行合并
    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        // 声明变量用于存储总和和计数
        int sum = 0;
        int count = 0;
        
        // 遍历迭代器，计算总和和计数
        for (IntWritable value : values) {
            sum += value.get(); // 求和
            count++; // 计数
        }
        
        // 计算平均值
        int avg = (int) sum / count; 
        
        // 将平均值设置到 IntWritable 类型的变量 average 中
        average.set(avg);
        
        // 将键和平均值作为输出键值对写入 Context 中
        context.write(key, average);
    }
}

需要注意的是，在计算平均成绩时，我们使用了整数除法。这可能会导致精度损失。如果需要更精确的平均数，可以考虑使用浮点数类型进行计算。

三、作业配置与运行

在编写完Mapper和Reducer类之后，我们需要配置MapReduce作业并运行它。这包括设置输入和输出路径、指定Mapper和Reducer类、配置作业参数等。具体的配置方法可能因Hadoop版本和集群环境的不同而有所差异。配置完成后，我们可以将作业提交到Hadoop集群上运行。

// 导入必要的类
package com.hadoop.mapreduce.wordcount;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

// 定义 WordCountDriver 类，用于配置和提交 MapReduce 作业
public class WordCountDriver {
    public static void main(String[] args) throws IOException, InterruptedException, ClassNotFoundException {
        // 1、获取配置信息
        Configuration conf = new Configuration();
        
        // 创建一个新的作业对象，传入配置信息和作业名称
        Job job = Job.getInstance(conf, "Score Average");
        
        // 2、设置执行作业的主类
        job.setJarByClass(WordCountDriver.class);
        
        // 3、关联 Mapper 和 Reducer 类
        job.setMapperClass(WordCountMap.class);
        job.setReducerClass(WordCountReduce.class);
        
        // 4、设置 Mapper 输出的键值对类型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);

        // 5、设置最终输出的键值对类型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);

        // 6、设置输入路径和输出路径
        FileInputFormat.setInputPaths(job, new Path("E:\\HGL\\Hadoop\\input2\\inputscorestatistics\\subject_score.csv"));
        FileOutputFormat.setOutputPath(job, new Path("E:\\HGL\\Hadoop\\output2\\wordcount2"));

        // 7、提交作业并等待完成
        boolean result = job.waitForCompletion(true);
        
        // 根据作业的执行结果，退出程序
        System.exit(result ? 0 : 1);
    }
}