数据倾斜

乌童

于 2021-03-02 08:45:23 发布

阅读量159

点赞数

文章标签： hive

本文链接：https://blog.csdn.net/ZK199506/article/details/114275989

版权

1.什么是数据倾斜？
数据按照某种分区规则后产生的分布不均匀状况，造成部分数据大量集中
比如：
银行按照面额点钱,10元1组，50元一组，100元一组,按面额分三人点钱,
如果100 元过多，则该名员工工作负荷也会大于其余两名
表现：
其他两人点完时, 100元还没有点完

2.容易产生数据倾斜的状况？
如 1 中某面额过多,即 partioner 分区后某些分区内键值集中

3.产生数据倾斜的原因？
key 分区不均匀
业务数据本身特性：比如针对口红单品时，男生和女生的消费状况
建表考虑维度少：比如数钱时不只考虑面额一个维度,可以引入批号数字的取值区间和年限做细分
查询语句本身存在数据倾斜：比如只按面额查询一堆钱不同面额的数量

4.怎么处理数据倾斜？
4.1 空值产生的数据倾斜,例如用户表中用户ID 列和其他表的用户ID 列关联作笛卡尔积
4.1.1 解决方法
4.1.1.1 过滤出左表 ID 列非空数据先与右表关联后再与左表过滤空值行拼接
select * from
tableleft L
join tableright R
on L.ID is not null
and L.ID = R.ID
union all
select * from
tableleft L
where L.ID is null
{要查表两次，效率较慢}

4.1.1.2 给空值列添加特定值
select * from
tableleft L
outer join tableright R
on
case when L.ID is null then concat(xxx,rand())
else L.ID = R.ID

4.2 大小表关联查询产生数据倾斜
4.2.1 使用map join解决小表关联大表造成的数据倾斜问题
将其中做连接的小表（全量数据）分发到所有 MapTask 端进行 Join

在 hive0.11 版本以后会自动开启 map join 优化，由两个参数控制：
set hive.auto.convert.join=true; //设置 MapJoin 优化自动开启
set hive.mapjoin.smalltable.filesize=25000000 //设置小表不超过多大时开启 mapjoin 优化

4.2.1.1 小表关联大表
直接将小表与大表关联

4.2.1.2 大表关联大表
将左表的关联列抽出与右表关联,
将左表与上述关联后的联合表关联

乌童

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
数据倾斜

1.什么是数据倾斜？数据按照某种分区规则后产生的分布不均匀状况，造成部分数据大量集中比如：银行按照面额点钱,10元1组，50元一组，100元一组,按面额分三人点钱,如果100 元过多，则该名员工工作负荷也会大于其余两名表现：其他两人点完时, 100元还没有点完2.容易产生数据倾斜的状况？如 1 中某面额过多,即 partioner 分区后某些分区内键值集中3.产生数据倾斜的原因？key 分区不均匀业务数据本身特性：比如针对口红单品时，男生和女生的消费状况建表考虑维度少：比如
复制链接

扫一扫