Hive学习（一）—Hive的入门

最新推荐文章于 2024-08-29 14:41:03 发布

沐马尘心

最新推荐文章于 2024-08-29 14:41:03 发布

阅读量244

点赞数

分类专栏： Hive 文章标签：大数据 hive

本文链接：https://blog.csdn.net/qq_39792300/article/details/105349689

版权

Hive 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Hive学习（一）—Hive的入门

1.1 什么是Hive

Hive是由Facebook开源用于解决海量结构化日志的数据统计。
Hive是基于Hadoop的一个数据仓库工具，可以将一张结构化的数据文件映射为一张表，并且提供了类SQL查询功能。其实本质是将HQL(Hive Query Language)转化成MapReduce程序。
转化图
（1）Hive处理的数据存储在HDFS上；
（2）Hive分析数据的底层实现是MapReduce
（3）执行的程序是运行在Yarn上。
从上面不难看出，我觉得Hive实际上是Hadoop的一个客户端，而且Hive并不是一个分布式的框架。

1.2 优缺点

1.2.1 优点：

 操作接口采用的是类SQL的语法，提供了快速开发的能力；
 避免了去写MapReduce，减少了开发人员的学习成本；
 Hive的执行延迟比较高，因此Hive常常被用来做数据分析，用于实时性要求不高的场合；
 Hive的优势在于处理大数据，对于小数据没有什么优势，因为Hive处理数据的延迟比较高；
 Hive支持用户自定义函数，用户可以根据自己的需求来实现自己的函数，这个是Hive很大的优势之一。

1.2.2 缺点：

Hive的HQL表达能力有限，只要表现在迭代式算法无法表达和数据挖掘方面不太擅长
Hive的效率比较低，而且调优比较困难。

1.3 Hive架构原理

Hive的架构原理图
1.元数据：Metastore
元数据包括：表名、表所属的数据库（默认是default）、表的拥有者、列/分区字段、表的类型（是否是外部表）、表的数据所在目录等；
注意：默认存储在自带的derby数据库中，推荐使用MySQL存储Metastore
2. 驱动器：Driver
（1）解析器（SQL Parser）：将SQL字符串转换成抽象语法树AST，这一步一般都用第三方工具库完成，比如antlr；对AST进行语法分析，比如表是否存在、字段是否存在、SQL语义是否有误。
（2）编译器（Physical Plan）：将AST编译生成逻辑执行计划。
（3）优化器（Query Optimizer）：对逻辑执行计划进行优化。
（4）执行器（Execution）：把逻辑执行计划转换成可以运行的物理计划。对于Hive来说，就是MR/Spark。
Hive的运行机制
从上图可以看出，Hive通过给用户提供的一系列交互接口，接收到用户的指令(SQL)，使用自己的Driver，结合元数据(MetaStore)，将这些指令翻译成MapReduce，提交到Hadoop中执行，最后，将执行返回的结果输出到用户交互接口。

沐马尘心

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hive学习（一）—Hive的入门

Hive学习（一）—Hive的入门1.1 什么是HiveHive是由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具，可以将一张结构化的数据文件映射为一张表，并且提供了类SQL查询功能。其实本质是将HQL(Hive Query Language)转化成MapReduce程序。（1）Hive处理的数据存储在HDFS上；（2）Hive分析数...
复制链接

扫一扫

专栏目录