【大数据技术Hadoop+Spark】Hive数据仓库架构、优缺点、数据模型介绍（图文解释超详细）

最新推荐文章于 2024-05-16 20:12:02 发布

showswoller

最新推荐文章于 2024-05-16 20:12:02 发布

阅读量2.1k

点赞数 5

分类专栏：大数据技术Hadoop+Spark 文章标签：大数据 hadoop hive mapreduce 数据仓库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jiebaoshayebuhui/article/details/128343351

版权

大数据技术Hadoop+Spark 专栏收录该内容

23 篇文章 16 订阅

订阅专栏

一、Hive简介

Hive起源于Facebook，Facebook公司有着大量的日志数据，而Hadoop是实现了MapReduce模式开源的分布式并行计算的框架，可轻松处理大规模数据。然而MapReduce程序对熟悉Java语言的工程师来说容易开发，但对于其他语言使用者则难度较大。因此Facebook开发团队想设计一种使用SQL语言对日志数据查询分析的工具，而Hive就诞生于此，只要懂SQL语言，就能够胜任大数据分析方面的工作，还节省了开发人员的学习成本。

Hive是建立在Hadoop文件系统上的数据仓库，它提供了一系列工具，能够对存储在HDFS中的数据进行数据提取、转换和加载（ETL），这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的工具。Hive定义简单的类SQL查询语言（即HQL），可以将结构化的数据文件映射为一张数据表，允许熟悉SQL的用户查询数据，允许熟悉MapReduce的开发者开发mapper和reducer来处理复杂的分析工作，与MapReduce相比较，Hive更具有优势。

Hive采用了SQL的查询语言HQL，因此很容易将Hive理解为数据库。其实从结构上来看，Hive和数据库除了拥有类似的查询语言，再无类似之处，MySQL与Hive对比如下所示。

对比项	Hive	MySQL
查询语言	Hive QL	SQL
数据存储位置	HDFS	块设备、本地文件系统
数据格式	用户定义	系统决定
数据更新	不支持	支持
事务	不支持	支持
执行延迟	高	低
可扩展性	高	低
数据规模	大	小

二、Hive架构

包括以下几个部分

1：用户结构：主要包括CLI、JDBC/ODBC客户端和Web接口，其中CLI为Shell命令行，JDBC/ODBC是Hive的Java接口实现，与传统数据库JDBC类似，Web接口通过浏览器访问Hive

2：元数据库：Hive将元数据存储在数据库中（MYSQL或者Derby）Hive中的元数据包括表的名字，表的列和分区及其属性，表的数据所在目录等等

3：Thrift服务器：允许客户端使用包括Java或其他很多种语言，通过编程的方式远程Hive

4：解释器，编译器，优化器，执行器：完成HQL查询语言语句从词法分析，语法分析，编译，优化以及查询计划的生成，生成的查询计划存储在HDFS中，并在随后调用执行MapReduce

三、Hive的优缺点

1：Hive的优点

适合大数据的批量处理，解决了传统关系数据库在大数据处理上的瓶颈

Hive构建在Hadoop之上，充分利用了集群的存储资源，计算资源，最终实现并行计算

Hive学习使用成本低，Hive支持标准的SQL语法，免去了编写MapReduce的过程，减少了开发成本

具有良好的扩展性，且能够实现和其他组件的结合使用

2：Hive的缺点

HQL表达能力依然有限，由于本身SQL的不足，不支持迭代计算，有些复杂的运算用HQL不易表达，还需要单独编写MapReduce来实现

Hive的运行效率低，延迟高，Hive是转换成MapReduce任务来进行数据分析，MapReduce是离线计算，所以Hive的运行效率也很低，而且是高延迟

Hive调优比较困难，由于Hive是构建在Hadoop之上的，Hive的调优还要考虑MapReduce层面，因此Hive的整体调优比较困难

四、Hive数据模型

Hive中所有的数据都存储在HDFS中，它包含数据库（Database）、表（Table）、分区表（Partition）和桶表（Bucket）四种数据类型。

Hive的内置数据类型可以分为两大类，分别是基础数据类型和复杂数据类型，Hive基础数据类型如下所示。

Hive复杂数据类型，具体如下所示。

创作不易觉得有帮助请点赞关注收藏~~~

关注

5
点赞
踩
10

收藏

觉得还不错? 一键收藏
打赏
1
评论
【大数据技术Hadoop+Spark】Hive数据仓库架构、优缺点、数据模型介绍（图文解释超详细）

【大数据技术Hadoop+Spark】Hive数据仓库架构、优缺点、数据模型介绍（图文解释超详细）
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

showswoller 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。