深入浅出解析Hive？

最新推荐文章于 2022-05-10 14:23:11 发布

置顶 hezhenserver

最新推荐文章于 2022-05-10 14:23:11 发布

阅读量284

点赞数 1

分类专栏： hive 文章标签： hadoop

本文链接：https://blog.csdn.net/weixin_43236191/article/details/103442493

版权

hive 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Hive是Apache(ASAF)官方提出的一个基于HDFS文件系统的一个外围小工具。我们称之为“数据仓库”。数据仓库意思就是存储数据的地方。实则不然，他并不存储数据！他的文件数据都存在ＨDFS上。当然除了HIVE本身的那些元数据以外（后面会讲到）。那么笔者认为，Hive的意思就是提供了一个工具、一个渠道，一个方式，一个概念，通过它去操作HDFS的数据，包括上传、下载、导入、导出等。

那么Hive的工作原理是什么呢？Hive提供了类SQL的语句功能-HQL。执行HQL语句，Hive能够将这种支持本身功能的HQL语句转换为Hadoop的MapReduce程序。这是程序自己完成的。也就是说，我们只要懂SQL语句，那么我们就能完成对HDFS文件系统上的操作。对吧。因此，对于初级开发者或者运维人员来说，就不要再去写复杂的MR代码了，也不用去考虑它自己的运行框架、简化了我们的开发运维工作。因为，只需要用它就可以完成了类似的大数据系统平台的操作。

实际生产中，我们的Hive的选择，要根据Hadoop的安装版本来决定，一般都匹配一致的版本。比如Apache hadoop---> Apache Hive. 比如 CDH hadoop ---> CDH hadoop hive.注意一定是对应的。

Hive的安装前提：

hive 安装的机器要能保证能访问到HDFS集群，可以是单独的机器，也可以是复合使用的机器。只要满足这点就可以了。

Hive为什么要跟Mysql、Oracle这种关系型数据进行整合连接呢？

其实Hive本身是可以不要这些外用的数据库的。因为Hive本身在安装的时候就自身存在元数据信息了，它的元数据信息存在自身的内嵌的derby数据库里，这是Hive本身自己自带的。但是它呢有2个缺点，它支持单个客户端连接，就是我执行一个Hive或者Hive-server它就饱和了。你再打开一个终端，它就报错。第二个缺点就是它无法集中管理它的Metadata。我开一个终端，他就再当前目录下存放元数据。想想多麻烦，数据无法集中等于信息无法实时的更新。等于HIve没用。

因此，我们就需要一个外用的、支持多用户的、元数据集中管理的这样一个数据库软件，那么Mysql、Oracle的作用就来了......Hive支持JDBC、ODBC的方式进行连接

说了这么多，Hive这么强大，它的应用场景是什么？缺点如何？

Hive并不是一个存储框架他的数据存在ＨＤＦＳ、其实就是类似于一个ｈａｄｏｏｐ的客户端。能写能读的一个客户端。HIve装一个就可以了，它又不存储数据，它又不计算、因为延迟比较高，适合离线分析。不太适应实时性的场合、支持读多写少的一款数据分析工具。它自动生成MR程序，效率比较低。

好，今天就分享这篇，安装部署细节很简单，操作也简单。适合大家学学。

hezhenserver

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深入浅出解析Hive？

Hive是Apache(ASAF)官方提出的一个基于HDFS文件系统的一个外围小工具。我们称之为“数据仓库”。数据仓库意思就是存储数据的地方。实则不然，他并不存储数据！他的文件数据都存在ＨDFS上。当然除了HIVE本身的那些元数据以外（后面会讲到）。那么笔者认为，Hive的意思就是提供了一个工具、一个渠道，一个方式，一个概念，通过它去操作HDFS的数据，包括上传、下载、导入、导出等。...
复制链接

扫一扫