Hive的基本概念和数据类型

最新推荐文章于 2024-04-28 08:50:09 发布

新手永远路上

最新推荐文章于 2024-04-28 08:50:09 发布

阅读量273

点赞数

本文链接：https://blog.csdn.net/m0_53066165/article/details/112973359

版权

本文介绍了Hive作为基于Hadoop的数据仓库工具，其基本概念、优缺点及架构原理。Hive并不存储数据，而是依赖于HDFS和MapReduce进行计算。Hive的元数据存储在Metastore中，SQL查询通过解析、编译、优化和执行四个步骤转化为MapReduce任务。文章还讨论了Hive与传统数据库的区别，以及Hive的数据类型，包括基本类型和复杂类型的转换规则。

摘要由CSDN通过智能技术生成

Hive的基本概念

1. 什么是Hive？
Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射成一张表，并提供类SQL的查询。
本质：将类SQL语句转换成MR（MapReduce以下简称MR）程序运行。
Hive既不存储数据也不计算数据，它的数据存储在HDFS上，分析数据的底层是MR，执行在Yarn上。
2. 优缺点
①上手简单，不需要在编写复杂的MR程序
②Hive执行的延迟较高，不适合实时。
③Hive优势在与大数据，对小数据没有优势
④支持自定义函数，用户可以根据需求自己实现函数
⑤Hive的类SQL表达能力有限，无法表达迭代式算法
⑥效率相对较低，自动化转成MR程序很粗糙，难以优化。
3. Hive架构原理
在这里插入图片描述
Metastore:存储表名、表属性等元数据
Client:用户接口（CLI、JDBC等）
Hadoop：使用HDFS进行存储，使用MapReduce进行计算
Driver：驱动器
（1）解析器（SQL Parser）：将SQL字符串转换成抽象语法树AST，这一步一般都用第三方工具库完成，比如antlr；对AST进行语法分析，比