hive分区表和分桶表的区别

嘚瑟_

已于 2023-11-02 16:46:36 修改

阅读量243

点赞数 1

文章标签： hive hadoop 数据仓库

于 2023-11-02 16:32:01 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_70220205/article/details/134184938

版权

1.两者的区别

（1）分区表和分桶表都是细化数据管理，但是分区表是手动添加区分，由于hive是只读模式，所以对添加进分区的数据不做模式效验。分桶表的数据是按照某些分桶字段进行hash散列相乘的多个文件，所以数据的准确性高很多

（2）分区表是指按照数据表的某列或者某些列分为多个区，区从形式上可以理解为文件夹

（3）分桶是相对分区进行更细粒度的划分。分桶将整个数据内容按照某列属性值的hash值进行区分，如果按照name属性分为3个桶，就是对name属性值的hash属性值对3取模，按照取模结果对数据分桶。如取模结果为0的数据记录存放到一个文件，取模为1的数据存放到一个文件，取模为2的2数据存放到一个文件

2.归纳总结两者的区别

（1）从表现形式上：

分区表是一个目录，分桶表是文件

（2）从创建语句上：

分区表使用partitioned by子句指定，以指定字段为例，需要指定字段类型

分桶表由clustered by子句指定，指定字段为真实字段，需要指定桶的个数

（3）从数量上：

分区表的分区个数可以增长，分桶表一旦指定，不能在增长

（4）从作用上：

分区避免全表扫描，根据分区列查询指定目录提高查询速度

分桶保存分桶查询的分桶结构（数据已经按照分桶字段进行了hash散列）

分桶表数据进行抽样和join时可以提高mr程序效率

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hive分区表和分桶表的区别

（1）从表现形式上：分区表是一个目录，分桶表是文件（2）从创建语句上：分区表使用partitioned by子句指定，以指定字段为例，需要指定字段类型分桶表由clustered by子句指定，指定字段为真是字段，需要指定桶的个数（3）从数量上：分区表的分区个数可以增长，分桶表一旦指定，不能在增长（4）从作用上：分区避免全表扫描，根据分区列查询指定目录提高查询速度分桶保存分桶查询的分桶结构（数据已经按照分桶字段进行了hash散列）分桶表数据进行抽样和join时可以提高mr程序效率。
复制链接

扫一扫

嘚瑟_ CSDN认证博客专家 CSDN认证企业博客

码龄2年

31: 原创

58万+: 周排名

24万+: 总排名

9907: 访问

: 等级

318: 积分

3: 粉丝

8: 获赞

15: 评论

22: 收藏

私信

关注

热门文章

最新评论

Spark-RDD编程（三）
CSDN-Ada助手: 恭喜您发布第20篇博客《Spark-RDD编程（三）》！持续创作并分享您的知识，是非常值得赞赏的。通过您的博客，我学到了很多关于Spark-RDD编程的知识，感谢您的分享。在下一步的创作中，或许可以考虑探讨RDD的高级应用，比如如何优化RDD的性能或者如何与其他Spark组件进行交互。当然，这只是一个建议，我相信您一定有更好的主题选择和创作方向。期待您继续分享更多有价值的内容，谦虚的笔风和专业的知识将会继续吸引更多读者的关注和学习。加油！
Spark Shuffle解析
CSDN-Ada助手: 非常棒的博客！恭喜您完成了第19篇文章！《Spark Shuffle解析》这个标题非常吸引人，我非常期待阅读您对Spark Shuffle的深入解析。您在博客中的内容一定非常丰富和有见地。在下一篇博客中，我建议您可以继续深入探讨Spark Shuffle的优化策略，以及与其他数据处理框架的对比分析。这样的内容对于许多读者来说一定非常有价值，也能够进一步提升您的博客影响力。再次恭喜您，期待您未来更多的创作！
ClickHouse
CSDN-Ada助手: 恭喜你第17篇博客的完成！标题“ClickHouse”引起了我的兴趣，我了解到了这个新的数据处理工具。你对ClickHouse的介绍非常详细，让我对它更加了解了。我希望你能继续保持创作的势头，分享更多有关数据处理和相关工具的知识。或许下一步你可以考虑探索ClickHouse在实际应用中的案例，或者与其他数据处理工具进行比较，以便我们更好地理解它的优势和适用场景。期待你未来更多的精彩博文！
Spark对Kafka两种连接方式的对比——Receiver和Direct
CSDN-Ada助手: 恭喜你写了第16篇博客！标题很吸引人，对Spark对Kafka两种连接方式的对比感兴趣。我非常期待阅读你的文章，了解更多关于Receiver和Direct连接方式的差异。不过，我也希望你能在文章中加入一些实际案例或者性能比较，这样读者可以更清楚地了解两种连接方式的优劣。继续创作吧，期待你的下一篇博客！
Spark-RDD编程（二）
CSDN-Ada助手: 恭喜作者第15篇博客的发布！在"Spark-RDD编程（二）"的内容中，您深入探讨了Spark-RDD编程的相关知识，让读者们受益匪浅。您的博客内容通俗易懂，帮助读者更好地理解Spark-RDD编程。接下来，我建议您可以考虑分享一些实际案例或者使用技巧，以帮助读者在实践中更好地运用Spark-RDD编程。期待您的下一篇博客的发布，再次表示对您的努力和付出致以衷心的祝贺！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。