深入理解Hive：探索不同的表类型及其应用场景，书籍+视频+学习笔记+技能提升资源库

2401_84181434

于 2024-04-14 03:35:08 发布

阅读量793

点赞数 24

分类专栏：程序员文章标签： hive 学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_84181434/article/details/137731820

版权

程序员专栏收录该内容

30 篇文章 0 订阅

订阅专栏

内部表：当表被删除时，与之关联的数据也会被删除，数据的生命周期与表的元数据绑定。

CREATE TABLE table_name (
  column1 data_type,
  column2 data_type,
  ...
) [PARTITIONED BY (partition_column data_type, ...)]

外部表：即使表被删除，数据文件仍然保留在HDFS上，数据的生命周期独立于Hive表的元数据。

CREATE EXTERNAL TABLE table_name (
  column1 data_type,
  column2 data_type,
  ...
) [PARTITIONED BY (partition_column data_type, ...)]
LOCATION 'hdfs\_path\_or\_local\_path';

2.3 按照查询优化

分区表（Partitioned Table）：通过将数据根据特定字段（分区键）分散到不同的分区中，可以显著提高查询效率，尤其是在查询可以利用分区键进行过滤时。

CREATE EXTERNAL TABLE table_name (
  column1 data_type,
  column2 data_type,
  ...
) PARTITIONED BY (partition_column data_type, ...)
LOCATION 'hdfs\_path\_or\_local\_path';

桶表（Bucketed Table）：通过将数据均匀分布到多个桶中，可以减少数据倾斜，提高JOIN操作和其他需要数据分布均匀的查询操作的效率。

CREATE TABLE table_name (
  column1 data_type,
  column2 data_type,
  ...
)
CLUSTERED BY (column_name) [SORTED BY (sort_column_name [ASC|DESC])]
INTO num_buckets BUCKETS
[PARTITIONED BY (partition_column data_type, ...)];

索引表(Indexed Table)：在数据仓库表上创建索引，加速查询。

CREATE INDEX index_name
ON TABLE table_name (column_name);

2.4 按照数据的临时性和持久性

临时表（Temporary Table）：这些表在Hive会话期间存在，会话结束后数据消失，适用于存储临时结果或中间数据。

CREATE TEMPORARY TABLE table_name (
  column1 data_type,
  column2 data_type,
  ...
) [PARTITIONED BY (partition_column data_type, ...)];

视图（View）：视图不是实际的数据存储，而是对现有数据集的逻辑表示，用于简化复杂查询，但不具备数据持久性。

CREATE VIEW sales_by_product AS
SELECT
  p.product_name,
  SUM(s.amount) AS total_sales,
  s.sale_date
FROM
  sales_fact s
JOIN
  products p ON s.product_id = p.product_id
GROUP BY
  p.product_name, s.sale_date;

3. 写在最后

在本文中，我们深入探讨了Hive数据仓库中的表类型，包括内部表、外部表、分区表、桶表、视图以及临时表。每种表类型都有其独特的特性和适用场景，它们共同构成了Hive强大的数据管理能力。

内部表和外部表主要根据数据存储位置和生命周期管理来区分。
内部表的数据与Hive的元数据紧密关联，而外部表则允许数据在Hive之外独立存在。
分区表和桶表则专注于查询优化，通过数据的逻辑和物理分割来提高查询效率。
视图提供了一种灵活的数据抽象方式，而临时表则用于处理会话级别的数据存储需求。

在实际的数据仓库设计中，选择合适的表类型对于确保数据的可管理性、查询性能和系统的可扩展性至关重要。例如，对于需要频繁变更的数据，使用外部表可能更为合适；而对于需要聚合分析的业务数据，事实表和维度表的组合则是标准的选择。

在实施数据仓库项目时，我们应该根据业务需求、数据特性和性能目标来综合考虑表类型的选择。同时，随着数据量的增长和业务需求的变化，我们可能还需要对表结构进行调整和优化，以适应新的挑战。

总之，Hive的表类型为我们提供了丰富的工具来构建和管理大规模数据集。通过深入理解这些表类型及其应用场景，我们可以更有效地设计和维护数据仓库，从而支持复杂的数据分析和业务决策。随着大数据技术的不断进步，我们期待Hive能够提供更多创新的功能，以帮助我们更好地处理和分析数据。

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数大数据工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年大数据全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上大数据开发知识点，真正体系化！

由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新

如果你觉得这些内容对你有帮助，可以添加VX：vip204888 （备注大数据获取）

一个人可以走的很快，但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎扫码加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

外链图片转存中…(img-CNlmWS4m-1713036831430)]

一个人可以走的很快，但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎扫码加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

关注

24
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
深入理解Hive：探索不同的表类型及其应用场景，书籍+视频+学习笔记+技能提升资源库

在本文中，我们深入探讨了Hive数据仓库中的表类型，包括内部表、外部表、分区表、桶表、视图以及临时表。每种表类型都有其独特的特性和适用场景，它们共同构成了Hive强大的数据管理能力。内部表和外部表主要根据数据存储位置和生命周期管理来区分。内部表的数据与Hive的元数据紧密关联，而外部表则允许数据在Hive之外独立存在。分区表和桶表则专注于查询优化，通过数据的逻辑和物理分割来提高查询效率。视图提供了一种灵活的数据抽象方式，而临时表则用于处理会话级别的数据存储需求。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。