【大数据Hive】hive 表设计常用优化策略

置顶逆风飞翔的小叔

已于 2024-02-21 12:37:04 修改

阅读量7.3k

点赞数 71

分类专栏：大数据 hive入门到精通文章标签： hive表优化策略 hive常用的优化策略如何对hive表优化 hive分桶表 hive索引 hive索引使用 hive分区表设计

于 2024-02-14 20:08:27 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/congge_study/article/details/129212002

版权

hive入门到精通同时被 2 个专栏收录

18 篇文章 17 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

20 篇文章 8 订阅

订阅专栏

目录

二、hive 普通表查询原理

2.1 操作演示说明

2.1.1 创建一张表，并加载数据

2.1.2 统计3月24号的登录人数

2.1.3 查询原理过程总结

2.2 普通表结构带来的问题

三、hive分区表设计

3.1 区表结构 - 分区设计思想

3.2 操作演示

3.2.1 创建分区表按照登录日期分区

3.2.2 开启动态分区

按登录日期分区

基于分区表查询数据

查询先检索元数据

查询执行计划

四、hive分桶表设计

4.1 Hive中Join的问题

4.2 分桶表设计思想

4.3 创建分桶表操作

创建第一张普通表

构建分桶emp表

创建第二张普通表dept并加载数据

构建分桶dept表并加载数据

4.4 普通表与分桶表join执行分析

普通表的join执行计划分析

分桶的Join执行计划分析

五、hive索引设计

5.1 hive索引说明

5.2 Hive中索引基本原理

5.2.1 Hive索引目的

5.3 索引的使用

5.4 Hive索引的问题

六、写在文末

一、前言

不管是关系性数据库，比如像mysql，还是类关系型数据库，像mongodb，为了确保在建表开始使用之后，能够充分发挥数据表的高性能查询，需要在表的设计阶段，从表的设计，索引的设计，分区的设计等等一系列因素综合去平衡和考虑，以免为上线后的优化工作带来麻烦。本篇将介绍hive关于表设计常用的一些优化策略。

二、hive 普通表查询原理

通过之前的学习，想必大家对hive的查询原理不再陌生，下图是hive查询的原理图；

为什么要说查询原理呢，理解一个软件的设计有必要对其原理做一定的了解，就像之前学习mysql一样，只有了解了innodb引擎的工作原理，才能更好的指导我们sql的做性能优化，关于hive的查询原理，再做如下补充：

Hive的设计思想是通过元数据解析描述将HDFS上的文件映射成表；
基本的查询原理是当用户通过HQL语句对Hive中的表进行复杂数据处理和计算时&#

了解本专栏

超级会员免费看

逆风飞翔的小叔

关注

71
点赞
踩
71

收藏

觉得还不错? 一键收藏
打赏
105
评论
【大数据Hive】hive 表设计常用优化策略

hive表常用优化策略
复制链接

扫一扫

专栏目录

评论 105

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

逆风飞翔的小叔 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。