大数据工具 Hive 架构设计原理

最新推荐文章于 2024-05-16 21:51:17 发布

转身成为了码农

最新推荐文章于 2024-05-16 21:51:17 发布

阅读量342

点赞数 9

文章标签：大数据 hive hadoop

本文链接：https://blog.csdn.net/alphonse_10/article/details/135385657

版权

Apache Hive 的架构设计主要围绕数据存储、查询处理和元数据管理这三个核心组件展开：

HDFS（Hadoop Distributed File System）：Hive 将数据存储在 HDFS 中，它提供了高容错性和大规模数据的分布式存储能力。
数据格式：用户可以指定不同类型的文件格式如 TextFile、SequenceFile 或 RCFile 存储数据，并且可以自定义 SerDe（Serializer/Deserializer）来处理特殊的数据格式。

Driver（编译器与优化器）：当用户提交 SQL 类似的 HiveQL 查询时，首先由 Driver 进行词法分析、语法分析生成抽象语法树（AST），然后经过查询优化生成执行计划。
Compiler：将逻辑执行计划转化为 MapReduce 或其他计算引擎（如 Tez 或 Spark）能理解的任务。
Execution Engine：实际运行编译后的任务。早期版本默认使用 MapReduce 作为执行引擎，后来逐渐支持更高效的执行框架。

Metastore：Hive 使用一个单独的数据库系统（如 MySQL、Derby 等）来存储其元数据信息，包括表的结构（字段名、类型等）、分区信息、表的位置（HDFS 上的路径）以及其他对象的描述信息。
Catalog Service：通过 Metastore，Hive 提供了一个完整的数据目录服务，允许用户查看和管理表结构以及与其他 Hive 对象交互。

CLI (Command Line Interface)：提供命令行界面进行 Hive 查询和数据操作。
Web UI：提供了简单的 Web 界面以监控查询状态和集群资源使用情况。
Thrift Server / JDBC/ODBC：支持通过标准的 JDBC 和 ODBC 接口远程访问 Hive，使得 BI 工具可以直接连接并查询 Hive 数据库。

总之，Hive 架构的设计目标是简化对大规模数据集的管理及分析过程，通过将复杂的编程任务转换为相对简单的 SQL-like 查询，使数据分析师能够高效地利用 Hadoop 集群处理大数据。

关注