Hive优化

最新推荐文章于 2024-06-13 19:56:50 发布

青云游子

最新推荐文章于 2024-06-13 19:56:50 发布

阅读量53

点赞数

分类专栏： Hive 文章标签： hive hadoop 数据仓库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40382400/article/details/132048877

版权

Hive 专栏收录该内容

18 篇文章 1 订阅

订阅专栏

分区，分桶避免全局扫描
列式存储，加快计算速度
采用压缩，减少磁盘IO
谓词下推，行列过滤(select *)，列剪裁，CBO优化(对于计算成本的优化，比如join的顺序)
开启map-side 针对groupby，数据量大的可以提前预聚合
开启map-join 大表join小表场景
开启分桶join SMB
1. 两张表必须是分桶表
2. 分桶数量必须整数倍
3. 分桶字段必须是关联字段
开启skew-join，如果检测到有key比较多的，那么单独开启一个mapjoin去计算，其他正常的使用common join
更换引擎 MR更换spark 或者tez

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hive优化

分区，分桶避免全局扫描列式存储，加快计算速度采用压缩，减少磁盘IO 谓词下推，行列过滤(select *)，列剪裁，CBO优化(对于计算成本的优化，比如join的顺序) 开启map-side 针对groupby，数据量大的可以提前预聚合开启map-join 大表join小表场景开启分桶join SMB 两张表必须是分桶表分桶数量必须整数倍分桶字段必须是关联字段开启skew-join，如果检测到有key比较多的，那么单独开启一个mapjoin去计算，其他正常
复制链接

扫一扫

专栏目录

青云游子 CSDN认证博客专家 CSDN认证企业博客

码龄7年

137: 原创

30万+: 周排名

2万+: 总排名

7万+: 访问

: 等级

1578: 积分

152: 粉丝

153: 获赞

21: 评论

181: 收藏

私信

关注

热门文章

分类专栏

java 9篇
doris 3篇
Spark 12篇
大数据 16篇
Flink 34篇
Hive 18篇
算法 7篇
大数据面试题 13篇
数据结构 5篇
数据治理 2篇
实时数仓 4篇
离线数仓 4篇
kafka 7篇
Maxwell 1篇
dolphinscheduler 1篇
hadoop 1篇
ChatGPT 1篇

最新评论

Doris注意事项，Doris部署在阿里云，写不进去数据
Lisza: 我也遇到这个问题了,师兄可以加个微信好好请教一下吗,救救孩子吧
doris备份恢复bug
王小王479: 凯哥厉害
Hive SQL血缘解析
普通网友: 干货满满！我也写了一篇获取【大厂面试真题解析、核心开发学习笔记、最新全套讲解视频、实战项目源码讲义、学习路线简历模板】的文章
Kafka-副本数量设置
吃胡萝卜的鳄鱼: 不对吧，offsets.topic.replication.factor是消费者offsets的副本数
使用FlinkCatalog将kafka的数据写入hive
简单简单小白: 《使用FlinkCatalog将kafka的数据写入hive》大佬讲述的很清楚，总结的也很详细，让我通俗易懂，又以实例证明技术点的实用性及可操作性，让我受益良多，感谢博主的分享

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。