hive sql优化

最新推荐文章于 2024-07-01 13:18:56 发布

释然me

最新推荐文章于 2024-07-01 13:18:56 发布

阅读量920

点赞数 1

分类专栏： hadoop 文章标签： hadoop hive

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/renzhenhuai/article/details/48376669

版权

hadoop 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

优化时，把hive sql当做map reduce程序来读，会有意想不到的惊喜。

hadoop处理数据的过程，有以下显著的特征：

1、不怕数据多，就怕数据倾斜

2、对jobs数比较多的作业运行效率相对比较低，比如即使使用几百行的表，如果多次关联多次汇总，产生十几个jobs，没半个小时是跑不完的。map reduce作业初始化的时间是比较长的。

3、对sum，count来说，不存在数据倾斜问题。

4、对count(distinct )，效率较低，数据量一多，准出问题，如果是多count(distinct )效率更低。

优化可以从几个方面着手：

1、好的模型设计事半功倍。

2、解决数据倾斜问题。

3、减少job数。

4、设置合理的map reduce的task数，能有效提升性能。（比如，10W+级别的计算，用160个reduce，那是相当的浪费，1个足够）。

5、自己动手写sql解决数据倾斜问题是个不错的选择。set hive.groupby.skewindata = true; 这是通用的算法优化，但算法优化总是漠视业务，习惯性提供通用的解决方法。Etl开发人员更了解业务，更了解数据，所以通过业务逻辑解决倾斜的方法往往更精确，更有效。

6、对count(distinct )采用漠视的方法，尤其数据大的时候很容易产生倾斜问题，不抱侥幸心理。自己动手，丰衣足食。

7、对小文件进行合并，是行之有效的提高调度效率的方法，假如我们的作业是设置合理的文件数，对云梯的整体调度效率也会产生积极的影响。

8、优化时把握整体，单个作业最优不如整体最优。

如果union all的部分个数大于2，或者每个union部分数据量大，应该拆成多个insert into 语句，实际测试过程中，执行时间能提升50%

ps： http://blog.csdn.net/zjw11763/article/details/9003830

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。