数仓工具—Hive的数据组织管理方式(4)

本文详细介绍了Hive中的数据组织管理,包括Database和Table的概念,重点解析了分区和分桶的原理及作用。分区通过按照列值存储在子目录中,减少扫描成本;分桶则通过哈希取模实现数据均匀分布,提高JOIN操作效率。注意,过多分区会影响性能,合理选择分桶列和桶的数量至关重要,动态分区和防止数据倾斜也是关键。
摘要由CSDN通过智能技术生成

Hive 中的数据组织管理方式

Database和 Table

这两个概念其实很常见,Database 又叫命名空间,其实主要是为了组织管理和命名冲突,例如表名冲突,视图冲突,组织管理含义就很多了

image-20201223150849662

这里我们有两个Database其实可以看到Database 在hive(HDFS) 上的物理存储就是两个文件夹,只不过这两个文件夹都有了自己的后缀 .db,如果你去命令行里查看的话是没有这个后缀的

image-20201223151112406

我们随便选一个文件夹进行,发现表的物理存储或者是组织管理方式也是文件夹,其实到这里我们就差不多理解了,Database和 Table 都是数据组织的方式,而且都是文件夹,后面当你学习到分区的时候,你还会看到分区也是这样的

注意这里的文件夹名字就是表名字,没有了后缀

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

不二人生

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值