mapreduce计算平均值

本文介绍了如何利用Hadoop的MapReduce组件计算大量学生成绩数据的平均值。通过示例数据和代码展示,Map阶段将学生姓名作为key,成绩作为value,而Reduce阶段则对相同key的成绩求和并计算科目数量,从而得出平均值。虽然程序没有处理小数成绩的情况,但展示了基本的计算思路。
摘要由CSDN通过智能技术生成

当我们有每一位同学的每一科成绩时,我们计算他们的平均成绩,用传统的方法比较麻烦,如果我们用hadoop中MapReduce组件的话就比较简单了。
测试数据如下:
仅用于测试的数据
从上面的数据可以看到,计算每一位同学的平均成绩,在map阶段,我们可以用同学的姓名作为key,成绩作为value;在reduce阶段,key值相同的value值相加计算出总成绩,并且计算出科目的数量,然后用总成绩来除以科目数量就可以得出每一位同学的平均成绩了。
代码如下:

import java.io.IOException;
import java.util.Iterator;
import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class Socre {
   
    public sta
MapReduce求平均值的任务概述如下: 1. Map阶段:将输入数据分割成若干个小数据块,每个小数据块由一个Map任务处理。Map任务将输入数据解析成键值对,其中键表示数据的某个特征,值表示该特征对应的数值。然后,Map任务对每个键值对进行处理,将其转换为新的键值对,其中键仍然表示数据的某个特征,值则表示该特征对应的数值和1。 2. Combiner阶段:Combiner是可选的,其作用是在Map任务本地对输出结果进行合并,以减少数据传输量。对于本任务,Combiner可以将每个键对应的数值和计数值进行累加。 3. Shuffle阶段:将Map任务的输出结果按照键进行分组,将同一键的所有值发送到同一个Reduce任务中进行处理。这个过程就是shuffle。 4. Reduce阶段:Reduce任务接收到Map任务输出的键值对后,对每个键的所有值进行累加,并将累加结果除以计数值,得到该键对应的平均值。 以下是一个Python实现的MapReduce求平均值的例子: ```python from mrjob.job import MRJob class MRMean(MRJob): def mapper(self, _, line): # 解析输入数据 data = line.strip().split(',') key = data[0] value = float(data[1]) # 输出键值对 yield key, (value, 1) def combiner(self, key, values): # 对每个键的所有值进行累加 total = 0 count = 0 for value, cnt in values: total += value count += cnt # 输出键值对 yield key, (total, count) def reducer(self, key, values): # 对每个键的所有值进行累加,并计算平均值 total = 0 count = 0 for value, cnt in values: total += value count += cnt mean = total / count # 输出结果 yield key, mean if __name__ == '__main__': MRMean.run() ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值