hive数据库分桶表格的基本操作

最新推荐文章于 2024-06-24 18:27:40 发布

华晨鑫科

最新推荐文章于 2024-06-24 18:27:40 发布

阅读量1.5k

点赞数

分类专栏： hive数据库文章标签： hive big data 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/HCXK2017/article/details/124946270

版权

本文详细介绍了Hive中的分桶表概念，强调了分桶表在数据抽样和提高Map-Side Join效率方面的应用。创建分桶表的语法、数据导入方式以及cluster by、distribute by、sort by 和 order by的区别被清晰阐述，揭示了它们在数据处理中的作用和优化策略。

摘要由CSDN通过智能技术生成

分桶表

对比前面的分区表，分桶表是对数据进行更加细粒度的划分。分桶表将整个数据内容按照某列属性值的哈希值进行区分，使用该哈希值除以桶的个数得到取余数，余数决定了该条记录会被分在哪个桶中。余数相同的记录会分在一个桶里。需要注意的是，在物理结构上，一个桶对应一个文件，而分区表只是一个目录，至于目录下有多少数据是不确定的。

应用场景：

1.数据抽样

在处理大规模数据集时，尤其载数据挖掘的阶段，可以用一份数据验证一下，代码是否可以运行成功，进行局部测试，也可以抽样进行一些代表性统计分析。

分桶抽样语句：select * from 分桶表 tablesample (bucket x out of y [on 列名])

语句中的y，必须是表格分桶数量的倍数或者因子。

2.map-side join

可以获得更高的查询处理效率。桶为表加上了额外的结构，（利用原有字段进行分桶），Hive 在处理有些查询时能利用这个

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
hive数据库分桶表格的基本操作

分桶表对比前面的分区表，分桶表是对数据进行更加细粒度的划分。分桶表将整个数据内容按照某列属性值的哈希值进行区分，使用该哈希值除以桶的个数得到取余数，余数决定了该条记录会被分在哪个桶中。余数相同的记录会分在一个桶里。需要注意的是，在物理结构上，一个桶对应一个文件，而分区表只是一个目录，至于目录下有多少数据是不确定的。应用场景：1.数据抽样在处理大规模数据集时，尤其载数据挖掘的阶段，可以用一份数据验证一下，代码是否可以运行成功，进行局部测试，也可以抽样进行一些代表性统计分析。分桶抽样
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。