MepReduce面试题：MepReduce数据倾斜

最新推荐文章于 2024-04-11 08:11:13 发布

谦卑t

最新推荐文章于 2024-04-11 08:11:13 发布

阅读量319

点赞数

分类专栏： MepReduce\Yarn面试题文章标签： MepReduce面试题

本文链接：https://blog.csdn.net/qq_42246689/article/details/84590373

版权

MepReduce\Yarn面试题专栏收录该内容

11 篇文章 1 订阅

订阅专栏

                    
                    利用combiner提前进行reduce,把一个mapper中的相同key进行了聚合，减少shuffle过程中数据量，以及reduce端的计算量。这种方法可以有效的缓解数据倾斜问题，但是如果导致数据倾斜的key大量分布在不同的mapper的时候，这种方法就不是很有效了。
局部聚合加全局聚合。即进行两次mapreduce，第一次在map阶段对那些导致了数据倾斜的key 加上1-n的随机前缀，这样之前相同的key 也会被分到不同的reduce中，进行聚合，这样的话就有那些倾斜的key进行局部聚合，数量就会大大降低。然后再进行第二次mapreduce这样的话就去掉随机前缀，进行全局聚合。不过进行两次mapreduce，性能稍微比一次的差些。