5.3.《hadoop实战》Hadoop数据管理之Hive_如何运用hive进行hadoop的管理-CSDN博客

Hive作为Hadoop上的数据仓库，提供了SQL查询语言QL，支持数据的存储、查询和分析。其架构包括元数据存储、数据存储和数据交换三方面，支持Table、ExternalTable、Partition和Bucket等数据模型。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。 Hive定义了简单的类SQL查询语言，称为 QL，它允许熟悉SQL的用户查询数据。作为一个数据仓库，Hive的数据管理按照使用层次可以从元数据存储、数据存储和数据交换三个方面来介绍。

(I）元数据存储
Hive将无数据存储在 RDBMS中，有三种模式可以连接到数据库：

1).Single User Mode ：此模式连接到一个In-memory的数据库 Derby，一般用于UnitTest.
2).MultiUser Mode ：通过网络连接到一个数据库中，这是最常用的模式。
3).Remote Server Mode ：用于非Java 客户端访问元数据库，在服务器端启动一个MetaStoreServer，客户端则利用Thrift协议通过MetaStoreServer采访问元数据库。
(2）数据存储
首先， Hive没有专门的数据存储格式，也没有为数据建立索引，用户可以非常自由地组织Hive中的表，只需要在创建表的时候告诉Hive数据中的列分隔符和行分隔符，它就可以解析数据了。
其次， Hive中所有的数据都存储在HDFS中， Hive中包含4种数据模型：Table、 External Table、Partition、Bucket。
Hive中的Table和数据库中的Table在概念上是类似的，每一个Table在Hive中都有一个相应的目录来存储数据。例如，一个表 pvs，它在HDFS中的路径为：／wh/pvs，其中， wh是在 hive-site.xml中由$ {hive.metastore. warehouse.dir｝指定的数据仓库的目录，所有的Table数据(不包括External Table）都保存在这个目录中。

Partition对应子数据库中Partition列的密集索引，但是Hive中Partition的组织方式与数据库中的很不相同．在Hive中，表中的一个Partition对应于表下的一个目录，所有的Partition数据都存储在对应的目录中．例如：pvs表中包含ds和city两个Partition，贝lj对应于ds= 20090801, city= US的HDFS子目录为：/wh/pvs/ds=20090801/city=US：对应于ds= 20090801, city= CA的HOPS子目录为：／wh/pvs/ds=20090801/city=CA.
Buckets对指定列计算hash，根据hash值切分数据，目的是为了便于并行，每一个Buckets对应一个文件．将user列分散至32个Bucket上，首先对user列的值计算hash，比如，对应hash值为0的HDFS目录为：／wh/pvs/ds=20090801 /city=US/part-00000；对应hash值为20的HDFS目录为：／wh/pvs/ds=20090801/city=US/part-00020；

External Table指向已经在HDFS中存在的数据，可以创建Partjtion。它和Table在元数据的组织结构上是相同的，而在实际数据的存储上则有较大的差异。

在Table的创建过程和数据加载过程〈这两个过程可以在同一个语句中完成）中，实际数据会被移动到数据仓库目录中。之后对数据的访问将会直接在数据仓库的目录中完成。删除表时，表中的数据和元数据将会被同时删除。

External Table只有一个过程，因为加载数据和创建表是同时完成的．实际数据是存储在Location后面指定的HDFS路径中的，它并不会移动到数据仓库目录中．

(3）数据交换
数据交换主要分为以下几个部分

1.用户接口：包括客户端、Web界面和数据库接口．
2.元数据存储：通常是存储在关系数据库中的，如MySQL、Derby等。口解释器、编译器、优化器、执行器。
3.Hadoop：用HDFS进行存储，利用MapReduce进行计算。

用户接口主要有三个：客户端、数据库接口和Web界面，其中最常用的是客户端． Client是Hive的客户端，当启动Client模式时，用户会想要连接HiveServer，这时需要指出Hive Server所在的节点，并且在该节点启动Hive Server. Web界面是通过浏览器访问 Hive的。

Hive将元数据存储在数据库中，如MySQL、Derby中。Hive中的元数据包括表的名字、表的列和分区及其属性 ,表的属性〈是否为外部表等〉、表数据所在的目录等．

解解释器、编译器，优化器完成HQL查询语句从词总分析、语能分析、编译、优化到查询计划的生成．生成的聋词计划存储在HDFS中，并在随后囱MapReduce调用执行．
Hive的数据存储在HDFS中，大部分的查询由MapReduce完成(包含*的查询不会生成MapRedcue任务，比如select • from tbl).