hive 性能优化

最新推荐文章于 2024-06-07 16:33:33 发布

得之我辛

最新推荐文章于 2024-06-07 16:33:33 发布

阅读量506

点赞数

分类专栏： hive 文章标签： hive sql big data

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/w991304848/article/details/120719246

版权

hive 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

目录

1.sql语法优化

1.使用explain 查询计划优化sql

2.使用analyze分析器

2.数据存储优化

1.设计分区表

2.设计分桶表

3.采用列式存储（orc格式存储）

1.开启orc索引

2.开启orc布隆过滤器（布隆过滤器：没有一定没有，有可能没有，还有查数据）

3.开启orc 矢量化查询

4.使用文件snappy压缩

5.小文件优化

1.避免生成小文件

2. 合并小文件

3.hive参数优化

1.hive 中mr相关参数优化

（1）.自适应本地模式

（2） .jvm重用

（3） .stage并行执行

2.hive 中hive相关参数优化

（1）.小表join小表，map join,缓存小表

（2）.大表join大表，bucket join

（3）.关联优化器

（4）.CBO优化器,基于代价优化器

（5）.数据倾斜skew join

hive 性能优化手段可以从三个方面入手

1.sql语法优化

1.使用explain 查询计划优化sql

2.使用analyze分析器

3.谓词下推

hive.optimize.pdd=true(默认开启)

2.数据存储优化

1.设计分区表

2.设计分桶表

3.采用列式存储（orc格式存储）

1.开启orc索引

为了index有效利用，向表中加载数据时，必须对需要使用索引字段排序

2.开启orc布隆过滤器（布隆过滤器：没有一定没有，有可能没有，还有查数据）

3.开启orc 矢量化查询

矢量化查询：按照每批1024行读取数据，并且一次性对整个记录整合应用操作，提升过滤，联合，聚合等操作性能。（类似矢量图，通过算法得到，放大缩小不失真。）

4.使用文件snappy压缩

5.小文件优化

1.避免生成小文件

2. 合并小文件

3.hive参数优化

1.hive 中mr相关参数优化

（1）.自适应本地模式

（2）.jvm重用

hadoop 会为每个task启动一个jvm运行，jvm启动内存开销大

（3） .stage并行执行

2.hive 中hive相关参数优化

（1）.小表join小表，map join,缓存小表

默认已经开启：hive.auto.convert.join=true

（2）.大表join大表，bucket join

1.clustered by colName

2.clustered by colName sorted by (colName)

（3）.关联优化器

（4）.CBO优化器,基于代价优化器

（5）.数据倾斜skew join

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
hive 性能优化

目录1.sql语法优化1.使用explain 查询计划优化sql2.使用analyze分析器3.谓词下推2.数据存储优化1.设计分区表2.设计分桶表3.采用列式存储（orc格式存储）1.开启orc索引2.开启orc布隆过滤器（布隆过滤器：没有一定没有，有可能没有，还有查数据）3.开启orc 矢量化查询4.使用文件snappy压缩5.小文件优化1.避免生成小文件2.合并小文件3.hive参数优化1.hive 中mr相关参数优化（1）...
复制链接

扫一扫

专栏目录

目录

分类专栏

spark 1篇
mysql 1篇
linux 1篇
maven 1篇
java 1篇
hive 1篇

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。