Hive数据倾斜解决方案

伯利恒教堂

已于 2023-05-25 09:57:29 修改

阅读量345

点赞数

分类专栏： hive 文章标签： hive 大数据 hadoop

于 2023-02-08 12:12:57 首次发布

本文链接：https://blog.csdn.net/m0_46503302/article/details/128932534

版权

hive 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

文章目录

1. 单表造成的倾斜

1.1 倾斜场景

如果是单表倾斜，一般是Group By 造成的，Shuffle时会把某个key的数据发送到一个Reduce里，如果某个key的数据量很大，那么就会造成倾斜。

1.2 解决方案

开启Map端预聚合，参数为：
set hive.map.aggr = true; // map端预聚合
set hive.groupby.skewindata = true; // 倾斜时负载均衡
提前在Map端做一个预聚合，这样就会很大的减轻Reduce端的压力

2. 两张表Join造成的倾斜

2.1 倾斜场景

两张大表Join发生倾斜

2.2 解决方案

使用分桶表，并且开启SMB Join （Sort Merge Bucket Join）
set hive.optimize.bucketmapjoin = true;
set hive.optimize.bucketmapjoin.sortedmerge = true;
set hive.input.format=org.apache.hadoop.hive.ql.io.BucketizedHiveInputFormat;

3. 大表Join小表造成的倾斜

3.1 倾斜场景

大表和小表Join时发生倾斜

3.2 解决方案

开启MapJoin，将小表广播到内存中，避免Shuffle的产生。

4. 空值过多造成的倾斜

4.1 倾斜场景

两张表进行Join时，某张表空值过多，发生倾斜的现象

4.2 解决方案

这里有两张解决方案，第一种就是给空值加上随机数，做法很简单，就是在关联条件那里使用case when 函数加上随机数就行例如：
select t1.*,t2.x from t1 left join t2 on case when t2.x is null then concat(“hive”,rand()) else t2.guid=t1.guid；

第二种就是在join之前过滤掉为null的数据，关联之后再加上null值数据；例如：
select t1.*,t2.x from t1 left join t2 on t2.x is not null and t2.guid=t1.guid;

5. Hive任务整体优化

5.1. Fetch 抓取

Fetch 抓取可以控制Hive某些简单的查询不用走MR，只要修改在 hive-default.xml.template 文件中 hive.fetch.task.conversion = more，那么之后在全局查找、字段查找、limit查找都不用走MR程序。

5.2. 本地模式

本地模式可以控制MR不用被提交到Yarn上，本地模式对小文件处理比较有效果

SET hive.exec.mode.local.auto=true; – 默认 false
SET hive.exec.mode.local.auto.inputbytes.max=50000000;
SET hive.exec.mode.local.auto.input.files.max=5; – 默认 4

默认情况下，一个作业只要满足以下条件，会启用本地模式

输入文件的大小 < 128MB
map任务的数量 < 4 个
reduce个数是1或者0

5.3. 严格模式

严格模式可以限制三种类型的查询，默认情况下是非严格模式。
开启严格模式

set hive.mapred.mode=strict;

开启严格模式后，限制3查询

笛卡尔积的查询
查询分区表时，必须指定分区范围，否则不允许查询
对于使用了order by的查询，必须使用limit进行限制

5.4. JVM 重用机制

默认情况下，Hadoop会为一个map或者reduce启动一个JVM，这样可以并行执行map和reduce任务。但是当map或者reduce是那种仅运行几秒钟的轻量级作业时，JVM启动进程所耗费的时间会比作业执行的时间还要长。所以我们可以开启JVM重用，以串行方式运行map和reduce任务，这样可以避免频繁的启停JVM。

如果要开启JVM重用，需要配置多少个task，默认值为共用一个JVM1，如果设置为-1，则表示不限制

#代表同一个MR job中顺序执行的10个task重复使用一个JVM，减少启动和关闭的开销
set mapreduce.job.jvm.numtasks=10;

5.5. 并行执行

Hive 会将一个SQL查询转化成一个或者多个阶段，可能转化成 MapReduce阶段、抽样阶段、合并阶段、 limit 阶段。也就是说一个job可能包含一个或多个阶段，而hive在默认情况下，一次只能执行一个阶段，而这些阶段可能并非完全互相依赖的，也就是说有些阶段是可以并行执行的，所以，如果有更多的阶段可以并行执行，那么 job 可能就越快完成。