【Hive的架构组成】

王百万_

于 2024-07-11 10:23:00 发布

阅读量177

点赞数 3

分类专栏：大数据技术栈源码数据治理文章标签：大数据 hive sql 数据库数据仓库数据库架构 hdfs

本文链接：https://blog.csdn.net/IT_6969/article/details/140344399

版权

15 篇文章 0 订阅

订阅专栏

9 篇文章 0 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

Hive是一个建立在Hadoop上的数据仓库工具，它提供了类似SQL的查询语言HiveQL，用于分析大规模数据集。Hive的架构组成包括元数据存储、驱动器、编译器、优化器、执行器和存储引擎。

Hive的元数据存储在关系型数据库中，它包含了表的结构、分区信息、表的属性和表的位置等元数据信息。常用的元数据存储包括MySQL和Derby等。

Hive的驱动器负责接收用户提交的HiveQL查询，编译查询语句，生成执行计划，并协调执行器执行查询。驱动器还负责与元数据存储进行交互，获取表的元数据信息。

Hive的编译器将HiveQL查询语句编译成MapReduce任务或Tez任务。编译器会将HiveQL查询转换成逻辑执行计划，然后优化执行计划，并生成物理执行计划。

Hive的优化器负责对生成的物理执行计划进行优化，以提高查询性能。优化器会进行诸如条件下推、列裁剪、连接重排等优化操作。

Hive的执行器负责执行经过编译和优化的任务。它会与Hadoop集群进行交互，提交MapReduce任务或Tez任务，并监控任务的执行情况。

Hive支持不同的存储引擎，包括默认的HDFS存储引擎、Apache HBase存储引擎和Apache Cassandra存储引擎等。存储引擎负责实际存储数据，并提供数据访问接口。

Hive的架构组成包括元数据存储、驱动器、编译器、优化器、执行器和存储引擎，这些组件共同协作，实现了Hive对大规模数据集的查询和分析功能。

关注

专栏目录