Hive数据倾斜

最新推荐文章于 2022-11-04 21:24:23 发布

dontlikerabbit

最新推荐文章于 2022-11-04 21:24:23 发布

阅读量176

点赞数

文章标签： hive

本文链接：https://blog.csdn.net/dontlikerabbit/article/details/114269982

版权

数据倾斜的定义：

由于数据分布不均匀，造成数据大量的集中到一点，造成数据热点

某些节点计算的能力较差或者由于此节点需要计算的数据比较多，导致数据倾斜

当我们在执行 HiveQL或者运行 MapReduce 作业时候，如果遇到一直卡在 map100%,reduce99%一般就是遇到了数据倾斜的问题

场景	后果
group by（gender）	若按性别groupby之后，如果其中一个性别的数据量远远大于另一个时，会造成数据倾斜
HiveQL 中包含 count（distinct FIELD_NAME）	若该字段数据量非常大，会造成数据倾斜
大表和小表进行join操作
需要进行 join的关联字段有大量的空值	空值进行hash时会得到一个最小值，就会存在大量相同的key分配到同一节点计算

在 Map 端进行聚合操作的条目数目

set hive.groupby.mapaggr.checkinterval = 100000;

有数据倾斜的时候进行负载均衡(生成两个 MR Job，一个可以让相同的 Group By Key 有可能被分发到不同的 Reduce中，实现部分聚合，达到负载均衡，一个保证相同的 Group By Key 被分布到同一个reduce，完成最终聚合）
```
set hive.groupby.skewindata = true;
```

由于 count（distinct）操作需要用一个 Reduce Task 来完成，如果数据量太大，就会导致整个 Job 很难完成，一般先group by来去重，再count

 select count(distinct id) from bigtable;

 select count(id) from (select id from bigtable group by id) a;

使用 mapjoin 将小表分发到所有maptask端的内存中，避免reducetask

hive0.11之前要在select 后面添加 /* +mapjoin(smalltable) */

select /* +mapjoin(smalltable) */ smalltable.id, name, age from smalltable join bigtable on smalltable.id = bigtable.id;

hive0.11之后会自动开启map join优化，参数设置如下：

set hive.auto.convert.join = true;（设置 MapJoin 优化自动开启）
set hive.mapjoin.smalltable.filesize=25000000;（设置小表不超过25M）

MapJoin 工作机制

在这里插入图片描述

首先是 Task A，它是一个 Local Task（在客户端本地执行的 Task），负责扫描

小表 b 的数据，将其转换成一个 HashTable 的数据结构，并写入本地的文件中，

之后将该文件加载到 DistributeCache 中。

接下来是 Task B，该任务是一个没有 Reduce 的 MR，启动 MapTasks 扫描大

表 a,在 Map 阶段，根据 a 的每一条记录去和 DistributeCache 中 b 表对应的

HashTable 关联，并直接输出结果。

由于 MapJoin 没有 Reduce，所以由 Map 直接输出结果文件，有多少个 Map

Task，就有多少个结果文件。

id 为空的不参与关联(先join,再union all)

select * from log  join users  on log .user_id is not null and log.user_id = users.user_id 
union all select * from log  where log .user_id is null;

关注