Hive分桶表的基本操作及结构

最新推荐文章于 2023-01-17 00:41:17 发布

大数据点滴

最新推荐文章于 2023-01-17 00:41:17 发布

阅读量1.7k

点赞数 1

分类专栏： # Hive 文章标签： hive

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_48283915/article/details/107678466

版权

Hive 专栏收录该内容

22 篇文章 0 订阅

订阅专栏

一、为何分桶

分区提供一个隔离数据和优化查询的便利方式。不过，并非所有的数据集都可形成合理的分区。对于一张表或者分区，Hive 可以进一步组织成桶，也就是更为细粒度的数据范围划分。

分桶是将数据集分解成更容易管理的若干部分的另一个技术。
分区针对的是数据的存储路径；分桶针对的是数据文件。

分桶是指定分桶表的某一列，让该列数据按照哈希取模的方式随机、均匀地分发到各个桶文件中。因为分桶操作需要根据某一列具体数据来进行哈希取模操作，故指定的分桶列必须基于表中的某一列（字段）。因为分桶改变了数据的存储方式，它会把哈希取模相同或者在某一区间的数据行放在同一个桶文件中。如此一来便可提高查询效率，如：我们要对两张在同一列上进行了分桶操作的表进行JOIN操作的时候，只需要对保存相同列值的桶进行JOIN操作即可。同时分桶也能让取样（Sampling）更高效。

二、分桶表的建立

创建分桶表

create table stu_buck(id int, name string)
clustered by(id) 
into 4 buckets
row format delimited fields terminated by '\t';

查看表结构

desc formatted stu_buck;

查询结果：
在这里插入图片描述
3. 导入数据到分桶表中

load data local inpath '/opt/module/datas/student.txt' into table stu_buck;

查看创建的分桶表中是否分成4个桶
查询分桶的数据

注意：
分区使用表外的字段，分桶使用表内字段
分区可以使用load加载数据，而分桶就必须要使用insert into方式加载数据
分区常用；分桶少用

大数据点滴

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

大数据点滴 CSDN认证博客专家 CSDN认证企业博客

码龄4年

139: 原创

5万+: 周排名

2万+: 总排名

63万+: 访问

: 等级

2402: 积分

155: 粉丝

301: 获赞

30: 评论

820: 收藏

私信

关注

热门文章

分类专栏

最新评论

HBase报错：Master is initializing
追风少年+1: 这篇文章提供了HBase遇到"Master is initializing"错误时的详细解析和可能的解决方案，对于正在使用HBase的开发者来说非常实用。通过作者的分析，我们能更好地理解HBase的运行机制，以及在遇到类似问题时如何排查和处理。感谢作者分享，对我的工作很有帮助。
HBase报错：Master is initializing
放空124: 你的问题解决了吗，我的也一直这样
列转行（spark 与presto语法）
普通网友: 你的博客内容深入浅出，总是让我不再感到学习的困难，每一篇博文都是我学习的宝库。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
列转行（spark 与presto语法）
普通网友: 这篇文章真是一篇佳作!作者运用了生动有趣的语言,将枯燥的理论知识娓娓道来,让人如沐春风。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Spring Boot 报错：Failed to configure a DataSource
GUOGUO家的程序员: 没用，还是一样 [code=java] @SpringBootApplication(exclude = DataSourceAutoConfiguration.class) public class DsApplication { public static void main(String[] args) { SpringApplication.run(DsApplication.class, args); System.out.println("================= start success! ================="); } } [/code] 启动还是报错： Description: Failed to configure a DataSource: 'url' attribute is not specified and no embedded datasource could be configured. Reason: Failed to determine a suitable driver class Action: Consider the following: If you want an embedded database (H2, HSQL or Derby), please put it on the classpath. If you have database settings to be loaded from a particular profile you may need to activate it (no profiles are currently active).

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。