mapreduce将key相同的value结合在一起_个人理解Hadoop中MapReduce

最新推荐文章于 2022-09-02 11:19:10 发布

weixin_39996035

最新推荐文章于 2022-09-02 11:19:10 发布

阅读量1.2k

点赞数

文章标签： mapreduce将key相同的value结合在一起

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39996035/article/details/112070473

版权

MapReduce 是什么?

MapReduce是一种分布式离线计算框架主要分为MapTask 和ReduceTask两部分

主要用于大规模的数据集(大于1T)的并行运算

首先我先讲解下MapReduce 的流程: 架构图

个人理解 : 这张图拆封成左右两部分左边(map) 右边(reduce)

首先分为 split -> map -> shuffle -> reduce

split: 比如我们有三个块,这样每个块分别开maptask并行去计算

block在存数据的时候会把数据切坏掉(比如:hello单词可能按照 he 存在一个

块的末尾 llo存在下一个块的头上) split就是告诉后面的map 要计算的数据是

哪些(记录了文件的偏移量) 默认split的个数是和文件的block的块个数相

同

map: maptask的个数由 split 的个数决定 map中输出的内容以一种 key , value的

形式输出 “相同”的key为一组，调用一次reduce方法，方法内迭代这一

组数据进行计算

shuffle:

最低0.47元/天解锁文章

weixin_39996035

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
mapreduce将key相同的value结合在一起_个人理解Hadoop中MapReduce

MapReduce 是什么? MapReduce是一种分布式离线计算框架主要分为MapTask 和ReduceTask两部分主要用于大规模的数据集(大于1T)的并行运算首先我先讲解下MapReduce 的流程: 架构图个人理解 : 这张图拆封成左右两部分左边(map) 右边(reduce) 首先分为 split -> ...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。