HiveSQL转换为MapReduce的过程

最新推荐文章于 2024-01-31 17:44:49 发布

原创最新推荐文章于 2024-01-31 17:44:49 发布 · 1k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

本文深入解析Hive作为Hadoop的数据仓库工具，介绍其元数据管理、用户接口、SQL执行流程，以及关键技术组件如元数据存储、驱动和解析器等。

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。
元数据包括：表名、表所属的数据库（默认是default）、表的拥有者、列/分区字段、表的类型（是否是外部表）、表的数据所在目录等；
Hive要访问数据中满足条件的特定值时，需要暴力扫描整个数据

用户接口：Client

CLI(hiveshell)、JDBC（java访问hive）、WEBUI（浏览器访问hive）
元数据：Metastore

元数据包括：表名、表所属的数据库（默认是default）、表的拥有者、列/分区字段、表的类型（是否是外部表）、表的数据所在目录等；
驱动器：Driver
- 解析器：将SQL字符串转换成抽象语法树AST（一般是第三方工具：antlr等）对AST进行语法分析，比如表是否存在、字段是否存在、SQL语义是否有误。
- 编译器：将AST编译生成逻辑执行计划。
- 优化器：对逻辑执行计划进行优化。
- 执行器：把逻辑执行计划转换成可以运行的物理计划。对于Hive来说，就是MR/Spark。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。