07 MapReduce计算总分,求和

提示

输入文件是一个目录,处理一个目录下面的所有文件
指定目录的话,会处理目录下的所有文件

package scoreCount;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class maxMapper extends Mapper<LongWritable,Text, Text, IntWritable> {
    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        String[] s = value.toString().split(" ");
        context.write(new Text(s[0]),new IntWritable(Integer.valueOf(s[1])));
    }
}

package scoreCount;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

public class maxReducer extends Reducer<Text, IntWritable,Text,IntWritable> {
    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        int sum = 0;
        for(IntWritable i : values){
            sum += i.get();
        }
        context.write(key,new IntWritable(sum));
    }
}

package scoreCount;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

public class maxDriver {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf);
        job.setJarByClass(maxDriver.class);
        job.setMapperClass(maxMapper.class);
        job.setReducerClass(maxReducer.class);
        //设置mapper的输出类型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);
        //设置reducer的输出类型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        //文件输入路径
        FileInputFormat.addInputPath(job,new Path("hdfs://hadoop01:9000/txt/score2/"));
        // 设置输出路径
        // 要求输出路径在HDFS上不存在
        FileOutputFormat.setOutputPath(job, new Path("hdfs://hadoop01:9000/result/scoresum"));
        // 提交任务
        job.waitForCompletion(true);
    }
}

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: MapReduce是一种分布式计算框架,可以用于处理大规模数据集。要实现求和操作,可以按照以下步骤进行: 1. Map阶段:将输入数据分成若干个小数据块,每个小数据块由Map任务处理。对于每个小数据块,Map任务将其中的每个元素映射为一个键值对,其中键为固定的字符串(比如"sum"),值为该元素的值。 2. Reduce阶段:将Map任务的输出汇总起来,对于相同键的多个值进行求和操作。Reduce任务的输出即为所有元素的和。 下面是一个简单的MapReduce代码示例,用于对一组数字进行求和操作: Map函数: ```python def map_func(key, value): # key: 输入数据的偏移量 # value: 输入数据的一行 yield "sum", int(value) ``` Reduce函数: ```python def reduce_func(key, values): # key: Map函数中输出的键 # values: Map函数中输出的值列表 yield sum(values) ``` 在实际使用中,需要将上述代码放入一个完整的MapReduce作业中,并指定输入数据和输出路径等参数。 ### 回答2: MapReduce是一种分布式计算模型,用于处理大规模数据集的并行计算任务。在MapReduce中,求和操作是一个常见的计算任务,下面是使用MapReduce求和的步骤。 首先,数据被分成小的块,并由多个Map任务并行处理。每个Map任务将输入数据块作为输入,并将数据块中的每个元素映射为键值对的形式。对于求和操作,键可以是任意值,而值是输入数据块中的一个元素。 接下来,Map任务将映射结果按照键进行分组,将相同键的值放在同一个组内。这样,每个组就代表一个唯一的键,以及与该键相关的所有值。 然后,多个Reduce任务并行处理这些组。每个Reduce任务将接收一个组,以及与该组相关的键和值。在本例中,每个Reduce任务的目标是将该组中的所有值相加得到求和结果。 最后,所有Reduce任务的结果将被收集和合并得到最终的求和结果。 总结起来,使用MapReduce求和的步骤包括数据分块、映射、分组、归约和收集合并。通过这种分布式的计算方式,可以有效地处理大规模数据集的求和任务,提高计算效率和速度。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值