Hive的特点、架构、数据模型等介绍

最新推荐文章于 2024-04-01 14:25:47 发布

Mine_Cun

最新推荐文章于 2024-04-01 14:25:47 发布

阅读量2.9k

点赞数

分类专栏： Hive 文章标签： hive数据类型 hive数据存储 hive定义、架构 hive工作原理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Mine_Cun/article/details/81916624

版权

本文详细介绍了Hive，一种基于Hadoop的数据仓库工具，适用于大规模数据集的批处理作业。Hive不支持实时查询和行级数据更新，其特点是适合OLAP，提供类SQL查询语言HiveQL。Hive架构包括用户接口、元数据、HQL处理引擎、执行引擎和数据存储在HDFS或HBase中。Hive的数据类型包括基本类型和集合类型，数据存储灵活，无需预定义索引，支持管理表、外部表、分区和桶。工作原理涉及查询解析、元数据获取、MapReduce执行等步骤。

摘要由CSDN通过智能技术生成

Hive的定义：

Hive是建立在 Hadoop 上的数据仓库基础构架。

提供了一系列的工具，可以用来进行数据提取转化加载(ETL)，这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。

Hive的特点：

Hive 不适合那些需要低延迟的应用，例如，联机事务处理(OLTP)，设计模式遵循联机分析处理（OLAP）

Hive 不提供实时查询和基于行级的数据更新操作

Hive 的最佳使用场合是大数据集的批处理作业

Hive提供了一套类SQL的语言(HiveQL or HQL)，用于执行查询，类SQL 的查询方式，将SQL 查询转换为MapReduce 的job 在Hadoop集群上执行

Hive 的数据存储在Hadoop 兼容的文件系统中(例如，Amazon S3、HDFS)

Hive 不支持对数据的改写和添加，所有的数据都是在加载的时候确定的

hive数据加载过程采用“读时模式”，传统的关系型数据库在进行数据加载时，必须验证数据格式是否符合表字段定义，如果不符合，数据将无法插入至数据库表中，即采用“写时模式”。

Hive的架构（五部分）：

用户接口（User Interface）主要有三个：Web UI 、command line和HiveHD Insight（在Windows服务器）；

元数据：Hive 将元数据metadata存储在数据库中，如 mysql、derby。元数据包含：表的信息、databases信息、表的列信息、字段类型信息和HDFS mapping(映射)；

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Hive的特点、架构、数据模型等介绍

Hive的定义：Hive是建立在 Hadoop 上的数据仓库基础构架。提供了一系列的工具，可以用来进行数据提取转化加载(ETL)，这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。 Hive的特点：Hive 不适合那些需要低延迟的应用，例如，联机事务处理(OLTP)，设计模式遵循联机分析处理（OLAP）Hive 不提供实时查询和基于行级的数据更新操作...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。