MR实战：统计总分与平均分

最新推荐文章于 2024-07-09 20:35:33 发布

2026763335

最新推荐文章于 2024-07-09 20:35:33 发布

阅读量797

点赞数 18

文章标签： mr

本文链接：https://blog.csdn.net/m0_75008603/article/details/135284702

版权

文章目录

一、实战概述
二、提出任务
三、完成任务

一、实战概述

我们将演示如何使用Apache Hadoop的MapReduce框架计算学生总分和平均分。针对包含姓名和六门科目成绩的五条记录数据，我们将在Hadoop上进行以下步骤：启动服务，准备数据（创建score.txt文件并上传到HDFS的/calcscore/input目录）；实现MapReduce过程，包括创建Maven项目、添加依赖、配置日志、编写ScoreMapper和ScoreReducer类，以及设置作业的ScoreDriver类。在ScoreMapper中，我们将每行数据拆分为姓名和科目成绩的键值对。ScoreDriver负责作业配置和调用Mapper和Reducer。ScoreReducer计算每个学生的总分和平均分，并输出结果。最后，运行ScoreDriver并查看HDFS上的结果文件。此过程展示了MapReduce在处理和分析学生成绩数据中的应用。

二、提出任务

成绩表,包含六个字段（姓名，语文，数学，英语，物理，化学），五条记录

姓名	语文	数学	英语	物理	化学
李小双	89	78	94	96	87
李丽霞	94	80	86	78	80
吴雨涵	90	67	95	92	60
张晓燕	87	76	90	79	59
陈燕文	97	95	92	88	86

三、完成任务

（一）准备数据

1、在虚拟机上创建文本文件

在master虚拟机上创建score.txt文件

2、上传文件到HDFS指定目录

在HDFS上创建/hivescore/input目录,执行命令：hdfs dfs -mkdir -p /calcsore/input
将文本文件score.txt,上传到hdfs的/calcscore/input目录

（二）实现步骤

说明：集成开发环境InteliJ IDEA版本-2020

1、创建Maven项目

Maven项目 - CalcScore
!
单击【Finish】按钮

2、添加相关依赖

在pom.xml文件里添加hadoop和junit依赖

<dependencies>                                      
    <!--hadoop客户端-->                                
    <dependency>                                    
        <groupId>org.apache.hadoop</groupId>        
        <artifactId>hadoop-client</artifactId>      
        <version>3.3.4</version>                    
    </dependency>                                   
    <!--单元测试框架-->                                   
    <dependency>                                    
        <groupId>junit</groupId>                    
        <artifactId>junit</artifactId>              
        <version>4.13.2</version>                   
    </dependency>                                   
</dependencies>

3、创建日志属性文件

在resources目录里创建log4j.properties文件

log4j.rootLogger=ERROR, stdout, logfile
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n
log4j.appender.logfile=org.apache.log4j.FileAppender
log4j.appender.logfile.File=target/calcscore.log
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

4、创建成绩映射器类

在net.hpy.mr里创建ScoreMapper类

package net.hpy.mr;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class ScoreMapper extends Mapper <LongWritable, Text, Text, IntWritable>{
    @Override
    protected void map(LongWritable key, Text value, Context context)
            throws IOException, InterruptedException {
        //获取行内容
        String line = value.toString();
        //按空格拆分得到字段数组
        String[] field = line.split(" ");
        //获取姓名
        //trim()去空格
        String name = field[0].trim();
        //遍历各科成绩
        for(int i = 1;i<field.length;i++){
            //获取成绩
            int score = Integer.parseInt(field[i].trim());
            //写入<姓名，成绩>键值对
            context.write(new Text(name),new IntWritable(score));
        }

    }
}

5、创建成绩驱动器类

在net.hpy.mr包里创建ScoreDriver类

package net.hpy.mr;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.net.URI;


public class ScoreDriver {
    public static void main(String[] args) throws Exception {
        // 创建配置对象
        Configuration conf = new Configuration();
        // 设置数据节点主机名属性
        conf.set("dfs.client.use.datanode.hostname", "true");

        // 获取作业实例
        Job job = Job.getInstance(conf);
        // 设置作业启动类
        job.setJarByClass(ScoreDriver.class);

        // 设置Mapper类
        job.setMapperClass(ScoreMapper.class);
        // 设置map任务输出键类型
        job.setMapOutputKeyClass(Text.class);
        // 设置map任务输出值类型
        job.setMapOutputValueClass(IntWritable.class);

        // 定义uri字符串
        String uri = "hdfs://master:9000";
        // 创建输入目录
        Path inputPath = new Path(uri + "/calcsore/input");
        // 创建输出目录
        Path outputPath = new Path(uri + "/calcsore/output");

        // 获取文件系统
        FileSystem fs =  FileSystem.get(new URI(uri), conf);
        // 删除输出目录（第二个参数设置是否递归）
        fs.delete(outputPath, true);

        // 给作业添加输入目录（允许多个）
        FileInputFormat.addInputPath(job, inputPath);
        // 给作业设置输出目录（只能一个）
        FileOutputFormat.setOutputPath(job, outputPath);

        // 等待作业完成
        job.waitForCompletion(true);

        // 输出统计结果
        System.out.println("======统计结果======");
        FileStatus[] fileStatuses = fs.listStatus(outputPath);
        for (int i = 1; i < fileStatuses.length; i++) {
            // 输出结果文件路径
            System.out.println(fileStatuses[i].getPath());
            // 获取文件系统数据字节输入流
            FSDataInputStream in = fs.open(fileStatuses[i].getPath());
            // 将结果文件显示在控制台
            IOUtils.copyBytes(in, System.out, 4096, false);
        }
    }
}

6、启动成绩驱动器类，查看结果

运行ScoreDriver类

7、创建成绩归并器类

在net.hpy.mr包里创建ScoreReducer类

package net.hpy.mr;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;
import java.text.DecimalFormat;


public class ScoreReducer extends Reducer<Text, IntWritable,Text, NullWritable> {
    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context)
        throws IOException,InterruptedException{
        //声明科目数、总分和平均分变量
        int count=0;
        int sum=0;
        double avg=0;
        //遍历迭代器计算总分
        for (IntWritable value : values){
            count++;//科目数累加
            sum=sum+value.get();//累加每颗成绩
        }
        //计算平均分
        avg=sum*1.0/count;
        //创建小数点格式对象（保留一位小数）
        DecimalFormat df = new DecimalFormat("#.#");
        // 拼接每个学生总分与平均分成绩信息
        String scoreInfo = "(" + key + "," + sum + "," + df.format(avg) + ")";
        // 写入键值对
        context.write(new Text(scoreInfo), NullWritable.get());
    }

}

8、修改成绩驱动器类

设置Reducer类及其输出键值类型

在这里插入图片描述

9、启动成绩驱动器列，查看结果

运行ScoreDriver 类
利用HDFS Shell命令查看结果文件内容

2026763335

关注

18
点赞
踩
21

收藏

觉得还不错? 一键收藏
1
评论
MR实战：统计总分与平均分

我们将演示如何使用Apache Hadoop的MapReduce框架计算学生总分和平均分。针对包含姓名和六门科目成绩的五条记录数据，我们将在Hadoop上进行以下步骤：启动服务，准备数据（创建score.txt文件并上传到HDFS的/calcscore/input目录）；实现MapReduce过程，包括创建Maven项目、添加依赖、配置日志、编写ScoreMapper和ScoreReducer类，以及设置作业的ScoreDriver类。在ScoreMapper中，我们将每行数据拆分为姓名和科目成绩的键值对。
复制链接

扫一扫