初识HIVE

最新推荐文章于 2023-04-09 09:25:32 发布

栖之

最新推荐文章于 2023-04-09 09:25:32 发布

阅读量108

点赞数

分类专栏： hadoop

本文链接：https://blog.csdn.net/tyhawk/article/details/88695805

版权

11 篇文章 1 订阅

订阅专栏

基本组成（用户接口）
CLI
JDBC/ODBC
Web UI
元数据存储
1）元数据是什么？
存储在Hive中的数据的描述信息
2）有哪些？
表的名、表的列和分区以及属性（内部表和外部表）、表的数据所在目录
3）存在哪儿？
自带Derby。缺点：不适合多用户操作，并且数据存储目录不确定
4）解决方案
存在自己创建的MySQL中（本地或远程）
解释器、编译器、优化器、执行器
这四大组件完成 HQL 查询语句从词法分析、语法分析、编译、优化以及生成查询计划的生成。生成的查询计划存储在 HDFS 中，并随后由 MapReduce 调用执行
-执行流程
HiveQL 通过命令行或者客户端提交，经过 Compiler 编译器，运用 MetaStore 中的元数据进行类型检测和语法分析，生成一个逻辑方案(logical plan)，然后通过的优化处理，产生一个 MapReduce 任务

在这里插入图片描述
Hive 将 HQL 转换成 MapReduce 执行， Hive 依赖于 HDFS 存储数据
所以说 Hive 是基于 Hadoop 的一个数据仓库工具，实质就是一款基于 HDFS 的 MapReduce 计算框架

在这里插入图片描述
总结:Hive 具有 SQL 数据库的外表，但应用场景完全不同， Hive 只适合用来做批量海量数据统计分析，也就是数据仓库

关注

专栏目录