Hive的基本概念和数据类型

本文介绍了Hive作为基于Hadoop的数据仓库工具,其基本概念、优缺点及架构原理。Hive并不存储数据,而是依赖于HDFS和MapReduce进行计算。Hive的元数据存储在Metastore中,SQL查询通过解析、编译、优化和执行四个步骤转化为MapReduce任务。文章还讨论了Hive与传统数据库的区别,以及Hive的数据类型,包括基本类型和复杂类型的转换规则。
摘要由CSDN通过智能技术生成

Hive的基本概念

1. 什么是Hive?
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射成一张表,并提供类SQL的查询。
本质:将类SQL语句转换成MR(MapReduce以下简称MR)程序运行。
Hive既不存储数据也不计算数据,它的数据存储在HDFS上,分析数据的底层是MR,执行在Yarn上。
2. 优缺点
①上手简单,不需要在编写复杂的MR程序
②Hive执行的延迟较高,不适合实时。
③Hive优势在与大数据,对小数据没有优势
④支持自定义函数,用户可以根据需求自己实现函数
⑤Hive的类SQL表达能力有限,无法表达迭代式算法
⑥效率相对较低,自动化转成MR程序很粗糙,难以优化。
3. Hive架构原理
在这里插入图片描述
Metastore:存储表名、表属性等元数据
Client:用户接口(CLI、JDBC等)
Hadoop:使用HDFS进行存储,使用MapReduce进行计算
Driver:驱动器
(1)解析器(SQL Parser):将SQL字符串转换成抽象语法树AST,这一步一般都用第三方工具库完成,比如antlr;对AST进行语法分析,比

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值