MapReduce二次排序(secondary sort)实战

最新推荐文章于 2020-04-26 21:41:48 发布

debug_myself

最新推荐文章于 2020-04-26 21:41:48 发布

阅读量2.2k

点赞数 1

分类专栏： Hadoop 文章标签： mapreduce hadoop 二次排序

本文链接：https://blog.csdn.net/carlislelee/article/details/63264445

版权

本文介绍了MapReduce中如何实现二次排序，以解决仅按照key排序无法满足需求的情况。通过示例展示了如何使用Python实现Hadoop Streaming程序，并详细解释了相关配置参数的作用，以及如何确保相同key的value能被分配到同一个reducer。二次排序在处理大规模数据时，对于特定场景如多数据join等有重要作用。

摘要由CSDN通过智能技术生成

  接触过mapreduce的同学都知道，为了将key值相同的record放在一起，分配给指定reducer，shuffle阶段会按照key值排序。 

  然而在某些情况下，我们需要同时对value排序，A同学立马提出了如下解决方案：reduce的时候，将同一个key的所有value都存在一个list中，最后再进行排序，这个方案在数据量小时没有问题，可是reducer的内存是有限的，当数据规模很大时，某个key可能会有几万个，几百万个value，上述方案在内存和性能上都是个灾难。 

  接着B同学灵机一动，既然map阶段按照key值排序，那么就把key和value一起作为新的key，使map输出<key_value, 1>，这样不就得到排序的结果了？但是B同学显然忘了shuffle好的数据是按照整个key来partition到各个reducer的，连接后的新key无法保证原key所有数据分发到同一个reducer上。 

  这时我们便需要mapreduce的二次排序机制了，二次排序机制其实和B同学的方案思路是相同的，只是在其之上增

最低0.47元/天解锁文章

debug_myself

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录