MapReduce数据倾斜的解决经验

12 篇文章 0 订阅

        数据倾斜的意思就是某些key对应的信息条数过多,导致对应reducer的内存溢出。

 

        解决这个问题,要区分一下问题引起的原因。无非是:

  1. 由于对数据构成认识不足,导致启动配置资源的不合理
  2. 刷量数据的不合理涌入

        对于第一种情况,我们可以通过调整reduce的个数,以及reducer的jvm大小来解决。

 

       对于第二种情况,我建议应该先分析数据的倾斜原因,考虑这部分数据生成的原因,是程序错误还是恶意的刷量数据。当然这个工作并不在解决数据倾斜的内容中。

        解决的方案比较简单,以时间换空间。通过修改patition的方式更改key的分配方式,让所有的key即能分散,又能达到一定程度的合并,达到数据规模下降的目的。key的生成方式可以采用“加延”的方法,比如,让每个key后面都带上patition的序号,或者带上时间段的某个位。然后通过计算这部分中间结果的方式来获取最后的结果。

        简单来说,处理方法的考虑顺序可以这样:

        1. 增加reducer个数,以及提高reduce的内存分配

        2. 使用combiner

        3. 使用自定义的partitioner

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值