【大数据工程师之路】Hadoop——MapReduce概述

一、概述。
       MapReduce是一种可用于数据处理的编程模型。Hadoop可以运行由各种语言编写的MapReuce程序。MapReduce分为Map部分和Reduce部分。
二、MapReduce的机制
       MapReduce分为几大过程input、Mapper、shufle、reduce、output
1、input阶段是指将原始文件拷贝到HDFS中。
2、通过Mapper来处理成目标所需要的key-value形式然后进行排序,Map相当于把源数据进行整理成目标数据所需要的数据材料。把多余的数据去除。Map主要功能还有是对任务进行分解,把复杂、大量的任务分为若干个小任务并且分配到各个节点里面进行并行计算。
3、shufile对数据进行一个预处理
4、reduce操作是对多个Map的输出进行,按照需要进行合并、排序。对输入的key、value进行处理然后输出想要的数据。
5、output过程就是将reduce操作后的数据存放到HDFS中。

如图:


三、总结

        MapReduce的作用就相当于ETL工具将原数据转换成目标数据。从原数据取出所需要的数据然后进行加工后把数据送到目标库作为目标数据。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值