hive的几种调优

最新推荐文章于 2024-08-14 19:43:27 发布

jia_yp

最新推荐文章于 2024-08-14 19:43:27 发布

阅读量1.7k

点赞数

文章标签： hive

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jia_yp/article/details/124002943

版权

1.根据场景使用分区表或者分桶表

2.使用列式存储文件格式（orc parquet）

3.没有上线使用的时候使用本地测试模式 set mapreduce.framework.name=local

4.合理的设置maptask和reducetask的个数

5.避免写select * from

6.如果内存充足，使用with x as()

7.使用left semi join 代替 select from in

8.使用group by 聚合替代 count（distinct（name））

9.尽量多的对原始数据进行过滤

10.小文件合并

11.查看执行技术dis

12.map端join

13.避免数据倾斜/对null进行处理

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hive的几种调优

1.根据场景使用分区表或者分桶表2.使用列式存储文件格式（orc parquet）3.没有上线使用的时候使用本地测试模式 set mapreduce.framework.name=local4.合理的设置maptask和reducetask的个数5.避免写select * from6.如果内存充足，使用with x as()7.使用left semi join 代替 select from in8.使用group by 聚合替代 count（distinct（name））9
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。