hive的架构

最新推荐文章于 2023-02-23 10:59:16 发布

星空下的那个人影

最新推荐文章于 2023-02-23 10:59:16 发布

阅读量120

点赞数

分类专栏：大数据面试 hive 文章标签： hive hadoop

本文链接：https://blog.csdn.net/sb_jb/article/details/124695506

版权

87 篇文章 20 订阅

订阅专栏

5 篇文章 0 订阅

订阅专栏

在这里插入图片描述
如图中所示，Hive 通过给用户提供的一系列交互接口，接收到用户的指令( SQL )，使用自己的 Driver ，结合元数据( Metastore )，将这些指令翻译成 MapReduce ，提交到 Hadoop 中执行，最后，将执行返回的结果输出到用户交互接口。

用户接口：Client
CLI（ hive shell ——命令行界面）、JDBC/ODBC（ jdbc 访问 hive ）、WEBUI（浏览器访问 hive）
元数据：Metastore
元数据包括：表名、表所属的数据库（默认是 default ）、表的拥有者、列/分区字段、表的类型（是否是外部表）、表的数据所在目录等；
默认存储在自带的 derby 数据库中，推荐使用 Mysql 存储 Metastore
Hadoop
使用 HDFS 进行缓存，使用 MapReduce 进行计算。
驱动器：Driver
1）解析器（SQL Parser）：将 SQL 字符串转换成抽象语法树 AST ，这一步一般都是用第三方工具库完成，比如 antlr；对 AST 进行语法分析，比如表是否存在、字段是否存在、SQL 语义是否有误；
2）编译器（Physical Plan）：将 AST 编译生成逻辑执行计划；
3）优化器（Query Optimizer）：对逻辑执行计划进行优化；
4）执行器（Execution）：把逻辑执行计划转换成可以运行的物理计划。对于 hive 来说，就是 MR、Spark。

关注

专栏目录