Hadoop入门——Hive数据存储模型

最新推荐文章于 2024-06-15 01:14:32 发布

晓风残悦

最新推荐文章于 2024-06-15 01:14:32 发布

阅读量471

点赞数 4

文章标签： hadoop hive 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/pxy39/article/details/136892358

版权

hive中的数据分为真实数据与元数据，一般来说Hive的存储格式是指真实数据的存储格式。

Hive常用的存储格式（四种）

存储格式	存储格式	说明
TEXTFILE	文本文件格式，按行存储（常见：txt、csv、tsv）	Hive默认存储格式，支持使用Gzip压缩，但压缩后失去了使用集群并行处理的优势
SEQUENCEFILE	“二进制序列化过的Key/Value字节流”组成的文本存储文件格式	Hive无法直接导入，可分割的
RCFILE	面向列的数据存储格式	遵循“先水平划分，再垂直划分”的设计理念，可分割的
ORCFILE	对RCFILE的优化格式	支持压缩比很高的压缩算法，文件可切分、提供多种索引，支持复杂的数据结构

Hive数据单元

Hive所有真实数据都存储在HDFS中，这样更利于对数据做分布式计算。为了有效地对数据进行管理，根据粒度大小，进行真实数据划分如下数据单元：

数据库：在HDFS中表现为hive.metastore.warehouse.dir目录下的一个文件夹，本质用于避免命名冲突的命名空间。
表：由列构成，在表上可进行过滤、映射、连接和联合操作。

分类

说明

内部表

由Hive管理，类似与RDBMS中的表（删除后均被删除）

外部表

真实数据不被Hive管理。已经存在HDFS中的数据，与内部表元数据组织是相同的，但数据存放位置是任意的（删除后只删除元数据，不删除真实数据）

分区：按指定的键分为多个分区。
分桶：同一个目录下根据哈希散列之后的多个文件。

下图为划分数据存储的模型和示例：

注意：Hive表没有主键；不支持行级操作；不支持批量update操作，但可以先删除、再添加；分区和分桶可以极大地提升数据查询效率

拓展：MySQL内、左、右连接

MySQL内、左、右、全连接我们以表与表间的连接为例

内连接

内连接查询的是两张表或者多个表的交集，也就是两张表的公共部分。

select * from A,B on A.id = b.id

左连接

左连接也称为左外链接，是将左表和左右表交集的组合。

左连接以左表为基础，根据on 后给出的条件将两表连接起来，最终的结果会将左表所有的信息列出，而右表只列出on条件与左表满足的部分，其余部分为空。

select * from A left join B on A.id = B.id;

右连接

右连接也称为右外链接，是将右表和左右表交集的组合。

右连接以右表为基础，根据on 后给出的条件将两表连接起来，最终的结果会将右表所有的信息列出，而左表只列出on条件与右表满足的部分，其余部分为空。

select * from A right join B on A.id = B.id;

最后，本篇文章是基于我所学所知进行的知识总结，如有误论，虚心接受指正。参考文献是《Hadoop数据仓库实战》，感兴趣的小伙伴可以对其进行深入阅读。（2024/03/11）

关注

4
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
Hadoop入门——Hive数据存储模型

hive中的数据分为真实数据与元数据，一般来说Hive的存储格式是指真实数据的存储格式。hive四种常用存储格式。mySQL内、左、右连接。
复制链接

扫一扫

晓风残悦 CSDN认证博客专家 CSDN认证企业博客

码龄1年

11: 原创

142万+: 周排名

9万+: 总排名

7588: 访问

: 等级

235: 积分

96: 粉丝

124: 获赞

5: 评论

127: 收藏

私信

关注

热门文章

最新评论

win10/Win11安装Docker Desktop
ilyymq: 2.2安装daoker desktop Configuration没有第一个选项怎么解决啊
Hadoop入门——Hive元数据
CSDN-Ada助手: 恭喜您发布了关于"Hadoop入门——Hive元数据"的第7篇博客！不断分享知识的举动令人钦佩。建议您在下一篇文章中可以深入探讨Hive元数据的实际应用场景，或者结合实例进行更具体的讲解。期待您的下一篇精彩内容！继续加油！
Hadoop入门——Hive DDL操作
CSDN-Ada助手: 恭喜您写了第5篇博客，标题为“Hadoop入门——Hive DDL操作”！持续创作是非常不易的，您的努力和热情让读者受益良多。希望您能继续保持这样的创作热情，可以考虑写一些实战案例或者深入分析，这样能够更好地帮助读者理解和应用知识。期待您更多精彩的博客！
win10/Win11安装Docker Desktop
CSDN-Ada助手: 很高兴看到你分享了关于安装Docker Desktop的博客！这篇文章对于想要在Windows系统上运行dockerized应用程序的读者来说肯定非常有用。希望你可以继续分享更多类似主题的文章，让更多人受益。另外，除了安装Docker Desktop，你还可以学习如何在Windows系统上配置Docker Compose来管理多个容器的部署。此外，了解Docker Swarm和Kubernetes等容器编排工具也会对你深入了解容器化应用程序的部署和管理有所帮助。希望这些扩展知识可以为你的博客内容增添更多价值。期待看到你更多的精彩内容！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
Hadoop入门——Hive数据存储模型
CSDN-Ada助手: 恭喜用户写下了第三篇博客，标题为“Hadoop入门——Hive数据存储模型”！这篇博客内容涵盖了Hive数据存储模型，对于学习Hadoop的读者们无疑是一次很有价值的学习！希望用户能够继续坚持创作，分享更多有关Hadoop和大数据的知识。建议用户在下一篇博客中可以深入探讨Hive数据查询与优化，这将更加完善读者的学习体验。期待用户更多优质内容的分享！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。