Hive问题总结

最新推荐文章于 2024-07-29 14:23:40 发布

ypscut

最新推荐文章于 2024-07-29 14:23:40 发布

阅读量923

点赞数

分类专栏：数据库

本文链接：https://blog.csdn.net/a096030098/article/details/81043435

版权

数据库专栏收录该内容

0 篇文章 0 订阅

订阅专栏

Hive表关联查询，如何解决数据倾斜的问题

倾斜原因：
map 输出数据按key Hash的分配到reduce中，由于key分布不均匀、业务数据本身的特性等原因造成reduce 上的数据量差异太大

1）key分布不均匀
2）业务数据本身的特性
3）建表时考虑不周
4）某些SQL语句本身就有数据倾斜

解决方案：

参数调节

hive.map.aggr = true
hive.groupby.skewindata=true

有数据倾斜的时候进行==负载均衡==，当选项设定为true,生成的查询计划会有两个MR job：第一个MR Job 中，Map的输出结果集合会==随机分布==到Reduce中，每个Reduce 做部分聚合操作，并输出结果，这样处理的结果是相同的GROUP BY Key有可能被分发到不同的Reduce中，从而达到负载均衡的目的；第二个MR Job再根据预处理的数据结果按照GROUP By Key分布到Reduce中（这个过程可以保证相同的GROUP By Key被分布到同一个Reduce中），最后完成最终的聚合操作

SQL 语句调节：
- 1）选用join key 分布最均匀的表作为驱动表。做好列裁剪和filter 操作，以达到两表做join 的时候，数据量相对变小的效果
- 2）大小表Join:使用map join 让小的维度表先近内存，在map端完成Reduce
- 3）大表 Join大表：把空值的key变成一个字符串加随机数，把倾斜的数据分布到不同的reduce上，由于null值关联不上，处理后并不影响最终结果
- 4) count distinct大量相同特殊值：count distinct 时，将值为空的情况单独处理

Hive的特点是什么

hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句快速实现简单的MapReduce统计，不必开发专门的MapReduce的应用

Multi-group by 是hive的一个非常好的特性

from A
insert overwrite table B
 select A.a, count(distinct A.b) group by A.a
insert overwrite table C
  select A.c, count(distinct A.b) group by A.c

Hive中的 Sort By，Order By，Cluster By，Distribute By 各代表什么意思

order by：会对输入做全局排序，因此只有一个reducer,只有一个reducer会导致当输入规模较大时，需要较长的计算时间

sort by：不是全局排序，其在数据进入到reducer前完成排序
distribute by:按照指定的字段对数据进行划分输出到不同的reduce中
cluster by: 除了具有distribute by的功能还兼具sort by的功能

参考 https://blog.csdn.net/haohaixingyun/article/details/52819588

ypscut

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录