简单认识Hive

Gyl聆听雨

已于 2024-04-23 21:58:23 修改

阅读量346

点赞数 4

文章标签： hive hadoop 数据仓库

于 2024-04-23 19:26:42 首次发布

本文链接：https://blog.csdn.net/m0_74223384/article/details/138135288

版权

Hive是建立在Hadoop上的数据仓库基础构架。对于有一定基础的大数据学习者来讲，Hive是必须掌握的核心技术。

什么是Hive?

Hive的定义

Hive是一个开源的数据仓库工具，用于在Hadoop平台上进行数据查询和分析。它是基于Hadoop的。因此，从本质上来看，Hive是将SQL转换为MapReduce程序的工具。因为，比直接用MapReduce开发效率更高，Hive的主要作用就是用来做离线数据分析。

Hive架构

Hive架构图
Hive Metastore：Hive的元数据存储组件，用于存储Hive表的元数据信息，包括表的结构、分区信息、表的位置等。
HiveServer2：Hive的服务端组件，提供了一个Thrift接口，允许客户端通过Thrift协议来执行HiveQL查询。
元数据存储：通常是存储在关系数据库如 mysql/derby 中。
Hive 将元数据存储在数据库中。Hive 中的元数据包括表的名字，表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在目录等。

<<hadoop-hive两者的元数据>>

Hadoop元数据管理：

Hadoop是一个分布式存储和计算框架，其元数据管理主要通过HDFS（Hadoop分布式文件系统）来实现。HDFS存储文件的元数据信息，包括文件的大小、权限、创建时间等。Hadoop还提供了一个元数据服务叫做Hadoop NameNode，它负责管理文件系统的命名空间和数据块的映射关系。

Hive元数据管理：

Hive是建立在Hadoop之上的数据仓库工具，它提供了类似于SQL的查询语言来对大数据进行查询和分析。Hive的元数据管理主要通过Hive Metastore来实现。Hive Metastore是一个关系型数据库，用于存储表的元数据信息，包括表的结构、数据类型、分区等信息。通过Hive Metastore，用户可以方便地管理和查询Hive表的元数据信息。