分布式计算（二）Hadoop原理

最新推荐文章于 2024-03-04 09:59:28 发布

木木歹朱

最新推荐文章于 2024-03-04 09:59:28 发布

阅读量281

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35319215/article/details/102805021

版权

Hadoop MapReduce基于“分而治之”的思想，将计算任务抽象成map和reduce两个计算过程，可以简单理解为“分散运算—归并结果”的过程。

一个MapReduce程序首先会把输入数据分割成不相关的若干键/值对（key1/value1）集合，这些键/值对会由多个map任务来并行地处理。
MapReduce会对map的输出（一些中间键/值对key2/value2集合）按照key2进行排序，排序是用memcmp的方式对key在内存中字节数组比较后进行升序排序，并将属于同一个key2的所有value2组合在一起作为reduce任务的输入，由reduce任务计算出最终结果并输出key3/value3。
作为一个优化，同一个计算节点上的key2/value2会通过combine在本地归并。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分布式计算（二）Hadoop原理

Hadoop MapReduce基于“分而治之”的思想，将计算任务抽象成map和reduce两个计算过程，可以简单理解为“分散运算—归并结果”的过程。一个MapReduce程序首先会把输入数据分割成不相关的若干键/值对（key1/value1）集合，这些键/值对会由多个map任务来并行地处理。MapReduce会对map的输出（一些中间键/值对key2/value2集合）按...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。