MapReduce编程(三) 求均值

最新推荐文章于 2024-05-17 16:48:52 发布

clypm

最新推荐文章于 2024-05-17 16:48:52 发布

阅读量1k

点赞数 1

分类专栏： Hadoop

Hadoop 专栏收录该内容

28 篇文章 1 订阅

订阅专栏

一、问题描述

三个文件中分别存储了学生的语文、数学和英语成绩，输出每个学生的平均分。

数据格式如下：
Chinese.txt

张三    78
李四    89
王五    96
赵六    67

Math.txt

张三    88
李四    99
王五    66
赵六    77

English.txt

张三    80
李四    82
王五    84
赵六    86

二、MapReduce编程

package com.cl.hadoop.avg;

import com.cl.hadoop.FileUtil;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.DoubleWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;
import java.util.StringTokenizer;

public class StudentAvgDouble {

    public static class MyMapper extends Mapper<Object, Text, Text, DoubleWritable> {

        public void map(Object key, Text value, Context context) throws IOException, InterruptedException {
            StringTokenizer tokenizer = new StringTokenizer(value.toString(), "\n");
            while (tokenizer.hasMoreElements()) {
                StringTokenizer tokenizerLine = new StringTokenizer(tokenizer.nextToken());
                String strName = tokenizerLine.nextToken();
                String strScore = tokenizerLine.nextToken();
                Text name = new Text(strName);
                DoubleWritable score = new DoubleWritable(Double.parseDouble(strScore));
                context.write(name, score);
            }
        }
    }

    public static class MyReducer extends Reducer<Text, DoubleWritable, Text, DoubleWritable> {
        public void reduce(Text key, Iterable<DoubleWritable> values, Context
                context) throws IOException, InterruptedException {
            double sum = 0.0;
            int count = 0;
            for (DoubleWritable val : values) {
                sum += val.get();
                count++;
            }
            DoubleWritable avgScore = new DoubleWritable(sum / count);
            context.write(key, avgScore);
        }
    }

    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        FileUtil.deleteDir("output");
        Configuration conf = new Configuration();
        String[] otherArgs = new String[]{"input/avg/*.txt", "output"};
        if (otherArgs.length != 2) {
            System.out.println("参数错误");
            System.exit(2);
        }

        Job job = Job.getInstance();
        job.setJarByClass(StudentAvgDouble.class);
        job.setMapperClass(MyMapper.class);
        job.setReducerClass(MyReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(DoubleWritable.class);
        FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
        FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

三、StringTokenizer和Split的用法对比

这种方式简单明了，但是也存在缺陷，对于非正常编码的空格有时候会出现切割失败的情况。
StringTokenizer是java.util包中分割解析类，StringTokenizer类的构造函数有三个:

StringTokenizer（String str）：java默认的分隔符是“空格”、“制表符（‘\t’）”、“换行符(‘\n’）”、“回车符（‘\r’）。
StringTokenizer（String str,String delim）:可以构造一个用来解析str的StringTokenizer对象，并提供一个指定的分隔符。
StringTokenizer（String str,String delim,boolean returnDelims）：构造一个用来解析str的StringTokenizer对象，并提供一个指定的分隔符，同时，指定是否返回分隔符。
StringTokenizer和Split都可以对字符串进行切分，StringTokenizer的性能更高一些，分隔符如果用到一些特殊字符，StringTokenizer的处理结果更好。

四、运行结果

张三  82.0
李四  90.0
王五  82.0
赵六  76.66666666666667

clypm

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
MapReduce编程(三) 求均值

一、问题描述三个文件中分别存储了学生的语文、数学和英语成绩，输出每个学生的平均分。数据格式如下： Chinese.txt张三 78李四 89王五 96赵六 67Math.txt张三 88李四 99王五 66赵六 77English.txt张三 80李四 82王五 84赵六 86二、MapReduce编程pac...
复制链接

扫一扫