Hive之简单介绍

最新推荐文章于 2024-05-18 22:45:56 发布

何如千泷

最新推荐文章于 2024-05-18 22:45:56 发布

阅读量295

点赞数 1

分类专栏： # Hive 文章标签： hive big data hadoop

本文链接：https://blog.csdn.net/qq_42735631/article/details/120611300

版权

9 篇文章 0 订阅

订阅专栏

Hive 基本概念

Hive 是基于 Hadoop 的一个数据仓库工具，用于解决海量结构化日志的数据统计工具，可以将结构化的数据文件映射为一张表，并提供类 SQL 查询功能

Hive 本质：将 HQL 转化成 MapReduce 程序

在这里插入图片描述

用户接口：Client
- CLI: command-line interface
- JDBC/ODBC: jdbc 访问 hive
- WEBUI: 浏览器访问 hive
元数据：Metastore
- 表名、表所属的数据库（默认是 default）、表的拥有者、列/分区字段、
  表的类型（是否是外部表）、表的数据所在目录等
Hadoop
- 使用 HDFS 进行存储，使用 MapReduce 进行计算
驱动器：Driver
- 解析器（SQL Parser）：将 SQL 字符串转换成抽象语法树 AST，这一步一般都用第三方工具库完成，比如 antlr；对 AST 进行语法分析，比如表是否存在、字段是否存在、SQL语义是否有误
- 编译器（Physical Plan）：将 AST 编译生成逻辑执行计划
- 优化器（Query Optimizer）：对逻辑执行计划进行优化
- 执行器（Execution）：把逻辑执行计划转换成可以运行的物理计划。对于 Hive 来说，就是 MR/Spark。

关注