Hive调优(重点)

最新推荐文章于 2024-06-28 20:46:07 发布

落幕7

最新推荐文章于 2024-06-28 20:46:07 发布

阅读量454

点赞数

分类专栏： # Hive 文章标签： hive big data

本文链接：https://blog.csdn.net/qq_43278189/article/details/120495810

版权

Hive 专栏收录该内容

8 篇文章 1 订阅

订阅专栏

Hive调优<重点>

一、Hive常见优化方式

Hive调优-建表注意事项

1.分区，分桶
一般是按照业务日期进行分区
每天的数据放在一个分区里
2.一般使用外部表，避免数据误删

Hive映射HBase表的几种方式
 Hive与es之间实现数据交互

3.选择适当的文件压缩格式
4.命名要规范
5.数据分层，表分离，但是也不要分的太散

Hive调优-查询优化

分区裁剪 where过滤，先过滤，后jion
分区分桶，合并小文件
适当的子查询
mapjoin（1.2以后自动默认启动mapjoin）
select /*+mapjoin(b)*/ a.xx,b.xxx from a left outer join b on a.id=b.id
左连的时候，大表在左边，小表在右边

大数据计算服务Maxcompute之–mapjoin原理和使用

order by 语句：	是全局排序
sort by 语句：		是单reduce排序
distribute by语句：	是分区字段排序;
cluster by语句：
可以确保类似的数据的分发到同一个reduce task中，并且保证数据有序防止所有的数据分发到同一个reduce上，导致整体的job时间延长
cluster by语句的等价语句：
distribute by Word sort by Word ASC

二、Hive数据倾斜及解决办法

1.数据倾斜解决
看下key的分布
处理集中的key
原因
1).key分布不均匀（实际上还是重复） 比如 group by 或者 distinct的时候
2).数据重复，join 笛卡尔积 数据膨胀
表现
任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成。因为其处理的数据量和其他reduce差异过大。
单一reduce的记录数与平均记录数差异过大，通常可能达到3倍甚至更多。 最长时长远大于平均时长。
解决方案：
1，看下业务上，数据源头能否对数据进行过滤，比如 key为 null的，业务层面进行优化。
2，找到key重复的具体值，进行拆分，hash。异步求和

Hive调优-作业优化

调整mapper和reducer的数量
太多map导致启动产生过多开销
按照输入数据量大小确定reducer数目set mapred.reduce.tasks=  默认3
dfs -count  /分区目录/ 
hive.exec.reducers.max设置阻止资源过度消耗

参数调节
set hive.map.aggr = true （hive2默认开启）
Map 端部分聚合，相当于Combiner
hive.groupby.skewindata=true

落幕7

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hive调优(重点)

Hive调优<重点>一、Hive常见优化方式Hive调优-建表注意事项Hive调优-查询优化二、Hive数据倾斜及解决办法Hive调优-作业优化一、Hive常见优化方式Hive调优-建表注意事项1.分区，分桶一般是按照业务日期进行分区每天的数据放在一个分区里2.一般使用外部表，避免数据误删Hive映射HBase表的几种方式Hive与es之间实现数据交互3.选择适当的文件压缩格式4.命名要规范5.数据分层，表分离，但是也不要分的太散Hive调优-查询优化分区裁剪 wh
复制链接

扫一扫

专栏目录