【图文详细 】数据倾斜

1、什么是数据倾斜?

由于数据分配不均匀,造成数据大量集中到一点,造成数据热点

 

2、Hadoop框架的特点

    A、不怕数据大,怕数据倾斜

    B、Jobs 数比较多的作业运行效率相对比较低,如子查询比较多

    C、 sum,count,max,min 等聚集函数,通常不会有数据倾斜问题 

3、主要表现

任务进度长时间维持在99%或者100%附近,查看任务监控页面,,发现只有少量 reduce 子任务未完成,因为其处理的数据量和其他的 reduce 差异过大。 单一 reduce 处理的记录数和平均记录数相差太大,通常达到好几倍之多,最长时间远大 于平均时长。 
 

4、容易数据倾斜情况 

    A、group by 不和聚集函数搭配使用的时候

    B、count(distinct),在数据量大的情况下,容易数据倾斜,因为 count(distinct)是按 group by 字段分组,按 distinct 字段排序      C、 小表关联超大表 join  

5、产生数据倾斜的原因:

    A:key 分布不均匀

    B:业务数据本身的特性

    C:建表考虑不周全

    D:某些 HQL 语句本身就存在数据倾斜 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值