【大数据工程师之路】Hadoop——MapReduce概述

最新推荐文章于 2022-01-29 16:00:30 发布

ladygaga1999999

最新推荐文章于 2022-01-29 16:00:30 发布

阅读量2.2k

点赞数

分类专栏：【大数据工程师之路】

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gwblue/article/details/47619439

版权

【大数据工程师之路】专栏收录该内容

2 篇文章 0 订阅

订阅专栏

一、概述。

MapReduce是一种可用于数据处理的编程模型。Hadoop可以运行由各种语言编写的MapReuce程序。MapReduce分为Map部分和Reduce部分。

二、MapReduce的机制

MapReduce分为几大过程input、Mapper、shufle、reduce、output

1、input阶段是指将原始文件拷贝到HDFS中。

2、通过Mapper来处理成目标所需要的key-value形式然后进行排序，Map相当于把源数据进行整理成目标数据所需要的数据材料。把多余的数据去除。Map主要功能还有是对任务进行分解，把复杂、大量的任务分为若干个小任务并且分配到各个节点里面进行并行计算。

3、shufile对数据进行一个预处理

4、reduce操作是对多个Map的输出进行，按照需要进行合并、排序。对输入的key、value进行处理然后输出想要的数据。

5、output过程就是将reduce操作后的数据存放到HDFS中。

如图：

三、总结

MapReduce的作用就相当于ETL工具将原数据转换成目标数据。从原数据取出所需要的数据然后进行加工后把数据送到目标库作为目标数据。

ladygaga1999999

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。