MapReduce处理数据过程介绍

本文详细介绍了MapReduce处理数据的全过程,包括input、map、shuffle、reduce和output五个阶段。在map阶段,对输入数据进行行偏移量和行内容的处理,通过单词分割生成(key, value)对。shuffle阶段则将相同key的数据进行合并。reduce阶段对key的值进行聚合计算。整个MapReduce程序中的数据以(key, value)形式流动,最终输出结果。" 52179366,5533243,最长上升公共子序列算法解析,"['动态规划', '算法', 'ACM竞赛', '序列处理']
摘要由CSDN通过智能技术生成

MapReduce处理数据的过程
    input ->map ->shuffle ->reduce ->output
    -a 针对input和output来讲
        正常情况下,你不需要编写代码,只需要指定需要处理的文件路径即可
    -b map和reduce中间有一个shuffle阶段
        属于MapReduce框架自己的事情,当然我们可以进行设置
    -c 核心关注
        map
         可以借助idea开发工具查看源码:(一般在源码中都有该类或方法的使用,尽量看源码可以提高你的代码书写水平)

         从源码中可以看出该类有四个参数:key的输入和输出,value的输入和输出

public class Mapper<KEYIN, VALUEIN, KEYOUT, VALUEOUT>

         而且在该类中可以看到map这个方法,我们重点就是这个map方法,只要理解map方法,那么map的过程就容易理解了:

  protected void map(KEYIN key, VALUEIN value, 
                     Context context) throws IOException, InterruptedException {
    context.write((KEYOUT) key, (VALUEOUT) value);
  }
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值