一些业务上数据倾斜的解决方案

最新推荐文章于 2024-07-12 16:35:20 发布

钓猫的鲈鱼

最新推荐文章于 2024-07-12 16:35:20 发布

阅读量51

点赞数

文章标签：数据库

本文链接：https://blog.csdn.net/tableOutlook/article/details/134225462

版权

一、业务上的逻辑所关于数据倾斜的解决方案，表过大或者在调度上出现数据倾斜的问题，主要表现在以下几个方面
1.reduce卡住，map端处理极慢
2.各种container报错OOM
3.读写的数据量极大，至少远远超过其它正常的reduce
4.任务被kill，杀死进程
5.响应极慢，会在join某个表极慢，比如卡在36%，75%，取决于表关联的个数（以10为界，10以下用枚举算法，10以上用贪心算法），本质上由数据库底层决定，b+或b，建议先了解底层

二、一些解决方案

序：kv分配不均所导致，
1.保证表的某个字段为唯一值，具体可能体现在订单号，身份证等具有唯一标识，先找表的主键，或者表创建的主要字段
2.多表关联下确保主表唯一标识，建议不超过10个表，或用临时表做表关联，拆表做，具体表现为drop table if exists 表名；create table 表名 as select xxx from 来源表 +各类语句；拆分成两个及两个以上的临时表再做关联（切记主表的来源，及数据的来源的主要表，形成业务上的闭环）
3.hive上的帮助文档和涉及都有一定可以修改的一些方案，如开启负载均衡，关闭向量化查询，设计优先级等这一类的解决方案，这里还是只要探讨下业务向一些解决方案，具体可以查询下各类数据库的文档，漫谈数据倾斜解决方案（干货） - 知乎 (zhihu.com) 这个博主在技术层级说得很明白了
set hive.vectorized.execution.enabled=false;
set hive.vectorized.execution.reduce.enabled=false;
set hive.exec.parallel=true;
set hive.groupby.skewindata=false;
4.对于一些表先做预处理再做操作，具体空值赋0等操作，其表现可以用case when做操作，避免空值所产生的数据倾斜，如果在业务中表数据都为null的话，看层级在哪个层级，数仓分层的层级在哪，具体确定，做字段的赋0处理是否符合业务要求，这里只是提供一个思路，具体还得看业务字段的类型和个人的发散思维

钓猫的鲈鱼

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
一些业务上数据倾斜的解决方案

4.对于一些表先做预处理再做操作，具体空值赋0等操作，其表现可以用case when做操作，避免空值所产生的数据倾斜，如果在业务中表数据都为null的话，看层级在哪个层级，数仓分层的层级在哪，具体确定，做字段的赋0处理是否符合业务要求，这里只是提供一个思路，具体还得看业务字段的类型和个人的发散思维。5.响应极慢，会在join某个表极慢，比如卡在36%，75%，取决于表关联的个数（以10为界，10以下用枚举算法，10以上用贪心算法），本质上由数据库底层决定，b+或b，建议先了解底层。序：kv分配不均所导致，
复制链接

扫一扫