一、 业务上的逻辑所关于数据倾斜的解决方案,表过大或者在调度上出现数据倾斜的问题,主要表现在以下几个方面
1.reduce卡住,map端处理极慢
2.各种container报错OOM
3.读写的数据量极大,至少远远超过其它正常的reduce
4.任务被kill,杀死进程
5.响应极慢,会在join某个表极慢,比如卡在36%,75%,取决于表关联的个数(以10为界,10以下用枚举算法,10以上用贪心算法),本质上由数据库底层决定,b+或b,建议先了解底层
二、一些解决方案
序:kv分配不均所导致,
1.保证表的某个字段为唯一值,具体可能体现在订单号,身份证等具有唯一标识,先找表的主键,或者表创建的主要字段
2.多表关联下确保主表唯一标识,建议不超过10个表,或用临时表做表关联,拆表做,具体表现为drop table if exists 表名;create table 表名 as select xxx from 来源表 +各类语句 ;拆分成两个及两个以上的临时表再做关联(切记主表的来源,及数据的来源的主要表,形成业务上的闭环)
3.hive上的帮助文档和涉及都有一定可以修改的一些方案,如开启负载均衡,关闭向量化查询,设计优先级等这一类的解决方案,这里还是只要探讨下业务向一些解决方案,具体可以查询下各类数据库的文档,漫谈数据倾斜解决方案(干货) - 知乎 (zhihu.com) 这个博主在技术层级说得很明白了
set hive.vectorized.execution.enabled=false;
set hive.vectorized.execution.reduce.enabled=false;
set hive.exec.parallel=true;
set hive.groupby.skewindata=false;
4.对于一些表先做预处理再做操作,具体空值赋0等操作,其表现可以用case when做操作,避免空值所产生的数据倾斜,如果在业务中表数据都为null的话,看层级在哪个层级,数仓分层的层级在哪,具体确定,做字段的赋0处理是否符合业务要求,这里只是提供一个思路,具体还得看业务字段的类型和个人的发散思维