Hive数据倾斜

数据倾斜的定义:

由于数据分布不均匀,造成数据大量的集中到一点,造成数据热点

数据倾斜的原因:

某些节点计算的能力较差或者由于此节点需要计算的数据比较多,导致数据倾斜

数据倾斜的表现:

当我们在执行 HiveQL或者运行 MapReduce 作业时候,如果遇到一直卡在 map100%,reduce99%一般就是遇到了数据倾斜的问题

产生数据倾斜的场景:

场景后果
group by(gender)若按性别groupby之后,如果其中一个性别的数据量远远大于另一个时,会造成数据倾斜
HiveQL 中包含 count(distinct FIELD_NAME)若该字段数据量非常大,会造成数据倾斜
大表和小表进行join操作
需要进行 join的关联字段有大量的空值空值进行hash时会得到一个最小值,就会存在大量相同的key分配到同一节点计算

解决方案:

1、group by 产生数据倾斜

  • 开启Map 端聚合

    set hive.map.aggr = true;
    
  • 在 Map 端进行聚合操作的条目数目

    set hive.groupby.mapaggr.checkinterval = 100000;
    
  • 有数据倾斜的时候进行负载均衡(生成两个 MR Job,一个可以让相同的 Group By Key 有可能被分发到不同的 Reduce中,实现部分聚合,达到负载均衡,一个保证相同的 Group By Key 被分布到同一个reduce,完成最终聚合)

    set hive.groupby.skewindata = true;
    

2、当 HiveQL 中包含 count(distinct)时

由于 count(distinct)操作需要用一个 Reduce Task 来完成,如果数据量太大,就会导致整个 Job 很难完成,一般先group by来去重,再count

 select count(distinct id) from bigtable;
 select count(id) from (select id from bigtable group by id) a;

3、大表和小表进行join操作

使用 mapjoin 将小表分发到所有maptask端的内存中,避免reducetask

hive0.11之前要在select 后面添加 /* +mapjoin(smalltable) */

select /* +mapjoin(smalltable) */ smalltable.id, name, age from smalltable join bigtable on smalltable.id = bigtable.id;

hive0.11之后会自动开启map join优化,参数设置如下:

set hive.auto.convert.join = true;(设置 MapJoin 优化自动开启)
set hive.mapjoin.smalltable.filesize=25000000;(设置小表不超过25M)

MapJoin 工作机制

在这里插入图片描述

首先是 Task A,它是一个 Local Task(在客户端本地执行的 Task),负责扫描

小表 b 的数据,将其转换成一个 HashTable 的数据结构,并写入本地的文件中,

之后将该文件加载到 DistributeCache 中。

接下来是 Task B,该任务是一个没有 Reduce 的 MR,启动 MapTasks 扫描大

表 a,在 Map 阶段,根据 a 的每一条记录去和 DistributeCache 中 b 表对应的

HashTable 关联,并直接输出结果。

由于 MapJoin 没有 Reduce,所以由 Map 直接输出结果文件,有多少个 Map

Task,就有多少个结果文件。

4、需要进行 join的关联字段有大量的空值

  • id 为空的不参与关联(先join,再union all)

    select * from log  join users  on log .user_id is not null and log.user_id = users.user_id 
    union all select * from log  where log .user_id is null;
    

  • 给空值分配随机的 key 值(把空值的 key 变成一个字符串加上一个随机数,把数据分到不同的 reduce 上)

    select * from log  left outer join users  on case when log .user_id is null then 
    concat(‘hive’,rand() ) else log .user_id end = users .user_id;
    

    总结:方法 2 比方法 1 效率更好,不但 IO 少了,而且作业数也少了

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值