一些业务上数据倾斜的解决方案

一、 业务上的逻辑所关于数据倾斜的解决方案,表过大或者在调度上出现数据倾斜的问题,主要表现在以下几个方面
1.reduce卡住,map端处理极慢
2.各种container报错OOM
3.读写的数据量极大,至少远远超过其它正常的reduce
4.任务被kill,杀死进程
5.响应极慢,会在join某个表极慢,比如卡在36%,75%,取决于表关联的个数(以10为界,10以下用枚举算法,10以上用贪心算法),本质上由数据库底层决定,b+或b,建议先了解底层


二、一些解决方案

序:kv分配不均所导致,
1.保证表的某个字段为唯一值,具体可能体现在订单号,身份证等具有唯一标识,先找表的主键,或者表创建的主要字段
2.多表关联下确保主表唯一标识,建议不超过10个表,或用临时表做表关联,拆表做,具体表现为drop table if exists 表名;create table 表名 as select   xxx  from 来源表 +各类语句 ;拆分成两个及两个以上的临时表再做关联(切记主表的来源,及数据的来源的主要表,形成业务上的闭环)
3.hive上的帮助文档和涉及都有一定可以修改的一些方案,如开启负载均衡,关闭向量化查询,设计优先级等这一类的解决方案,这里还是只要探讨下业务向一些解决方案,具体可以查询下各类数据库的文档,漫谈数据倾斜解决方案(干货) - 知乎 (zhihu.com) 这个博主在技术层级说得很明白了
    set hive.vectorized.execution.enabled=false;  
    set hive.vectorized.execution.reduce.enabled=false;
    set hive.exec.parallel=true;  
    set hive.groupby.skewindata=false;
4.对于一些表先做预处理再做操作,具体空值赋0等操作,其表现可以用case when做操作,避免空值所产生的数据倾斜,如果在业务中表数据都为null的话,看层级在哪个层级,数仓分层的层级在哪,具体确定,做字段的赋0处理是否符合业务要求,这里只是提供一个思路,具体还得看业务字段的类型和个人的发散思维

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值