Hive参数配置以及HQL编写技巧

最新推荐文章于 2022-06-17 11:03:45 发布

tomson8975

最新推荐文章于 2022-06-17 11:03:45 发布

阅读量1.1k

点赞数

分类专栏： hive

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tomson8975/article/details/49465599

版权

本文介绍了如何根据Hive作业运行场景进行参数配置，包括处理Group by数据倾斜、控制Map和Reduce数量、优化数据倾斜字段的处理方式，以及避免不必要的操作。此外，还分享了使用left semi join优化查询、合并多组group by操作以及选择合适表格式的建议。

摘要由CSDN通过智能技术生成

前言

本文的意图在于根据常见hive作业运行场景，介绍hive以及hadoop的参数设置方法。

Group by数据倾斜：

如果需要group by的字段有一个值或一些值出现的频率很高：

可以用hive.groupby.skewindata参数平衡数据。

Map,Reduce数控制：

如果需要减小Map的数量：

~~_MRv1.0：~~

set mapred.min.split.size=<Long>

^MRv2.0:

set mapreduce.input.fileinputformat.split.minsize=<Long>

（相反，如果把min换成max就是增大map的数量,建议尽量减少map数）

如果需要限制map的数量：

~~^MRv1.0：~~

set mapred.map.tasks=<number>

^MRv2.0:

set mapreduce.job.maps=<number>

如果需要限制reduce的数量：

~~^MRv1.0：~~

set mapred.reduce.tasks=<number>

^MRv2.0:

set mapreduce.job.reduces=<number>

对于某些有数据倾斜的字段：

如A表与B表左外连接时：

A left outer join B on A.col1=B.col1;

如果A.col1有大量null值会照成倾斜，可以把A.col1为null的值拿出来单独处理，如：

A left outer join B on A.col1=B.col1 and A.col1 != null

union all

select * from A where A.col1 = null;

如果A表与B表内连接时：

A join B on A.col1=B.col1

同样，如果Acol1有大量的null值可以这么处理：

A join B on case when A.col1 is NULL then concat('NULL',rand()) else A.col1 end = B.col1

反正NULL不参与连接，所以这么处理后随机值也连接不上不仅分散了数据而且不影响最后结果。

减少不必要的操作：

 
          select * from 
         

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

tomson8975 CSDN认证博客专家 CSDN认证企业博客

码龄14年

27: 原创

26万+: 周排名

154万+: 总排名

7万+: 访问

: 等级

936: 积分

10: 粉丝

6: 获赞

3: 评论

28: 收藏

私信

关注

热门文章

分类专栏

HDFS 4篇
yarn 6篇
mapred 4篇
hive 11篇
spark 2篇
Greenplum 1篇
HBase 1篇

最新评论

Nodemanager堆内内存泄漏问题记录
weixin_39697391: 作者你好，我们也遇到了同样的问题，spark写入kudu，过几个小时nodemanager就full gc，想问下你的解决办法是改源码吗
Greenplum性能调试记录
l330385204: 你好，请问一下数据体量是多大？另外后面的图裂了
HIVESERVER2 HA配置及使用（java）
u010649459: 您好，我通过java的jdbc连接zk，老是报URL格式错误，请教下是什么原因呢？就算就配置一个zk的地址，也不行！异常如下： java.sql.SQLException: java.lang.IllegalArgumentException: Bad URL format. Hostname not found in authority part of the url: bi-lc-238:2181,bi-lc-211:2181,bi-lc-226:2181. Are you missing a '/' after the hostname ?

最新文章

目录

目录

分类专栏

HDFS 4篇
yarn 6篇
mapred 4篇
hive 11篇
spark 2篇
Greenplum 1篇
HBase 1篇

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。