hadoop生态圈----hive

杂乱无章的我

于 2022-08-05 22:12:30 发布

阅读量868

点赞数

文章标签： hive hadoop 大数据

本文链接：https://blog.csdn.net/m0_58258383/article/details/126149039

版权

本文详细介绍了Hive作为数据仓库工具的优缺点、架构组成，对比了Hive与传统数据库的差异，并提供了Hive的安装步骤。Hive基于Hadoop，提供类SQL查询，适合大数据分析，但执行延迟较高，不适合实时查询。其架构包括客户端、元数据、Hadoop和Driver，其中Driver负责将SQL转化为MapReduce作业。在安装部分，文章给出了Hive的下载链接及详细的安装配置过程。

摘要由CSDN通过智能技术生成

前言：

Hive：由 Facebook 开源用于解决海量结构化日志的数据统计工具。Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类 SQL 查询功能。

其本质是将hiveSQL转化成MapReduce程序。其处理的数据存储与HDFS上，对数据的处理底层实现是MapReduce，其执行程序运行与yarn上。

一 Hive的优缺点

优点

（1）hive操作接口采用类SQL语法，使得其使用更加简单，易于上手。

（2）Hive使用的大量类SQL语法，减少了开发人员学习MapReduce的成本。

（3）Hive优势在于处理大数据，对于处理小数据没有优势，因为Hive的执行延迟较高。

缺点

（1）hive无法实现迭代算法，同时hive的执行延迟比较高，因此hive常用与数据分析，对实时性要求不高的场合使用。

（2）通常情况下hive内置的MapReduce作业，不够智能化。

二 hive的架构

hive架构中各部分作用
名称	作用
client（用户接口）	CLI（command-line interface） JDBC/ODBC(jdbc访问hive) WEBUI（浏览器访问hive）
Metastore（元数据）	元数据包括：表名、表所属的数据库（默认是 default）、表的拥有者、列/分区字段、表的类型（是否是外部表）、表的数据所在目录等；
hadoop	使用HDFS进行存储，使用MapReduce进行计算
Driver（驱动器）	（1）SQL解析器：将SQL字符串转换为抽象语法树AST （2）编译器：对AST语法树编译生成逻辑执行计划（3）优化器：对逻辑执行计划进行优化（4）执行器：将逻辑执行计划转换为物理计划（MapReduce或其他计算引擎）

hive通过提供给用户的一系列交互接口，接收到用户的指令(SQL)，最后使用自己的Driver，结合元数据（MetaStore），将这些指令翻译成MapRdeuce，提交到Hadoop中进行执行，最后将执行结果返回。

三 hive和数据库的比较

（1）查询语言方面，因为SQL被广泛的应用与数据仓库中，因此，专门针对Hive的特性设计了类SQL的查询语言HQL。

（2）由于Hive是针对数据仓库应用所设计的，因此，Hive不建议对数据进行修改，所有的数据都是在加载时就已经确定好的。

（3）执行延迟方面，由于hive在查询数据时，没有索引，需要扫描整张表，因此言辞较高。同时，hive执行需要使用MapReduce框架，由于MapReduce本身具有较高的言辞，因此，在利用MapReduce执行Hive查询时，会产生较高的延迟。

（4）数据规模方面，由于HIve建立在集群上并可以利用MapReduce进行并行计算，因此其可以支持很大规模的数据查询与处理。

四 hive安装

hive官网地址：http://hive.apache.org

进入官网可点击downloads选择自己要使用的版本进行下载使用。

为了防止网络问题，这里我也上传了自己的hive 3.1.0版本供大家使用

链接：https://pan.baidu.com/s/11x02rU65dfZm90oBpbZ_dQ
提取码：1949

首先通过第三方工具将软件包上传至虚拟机上，然后解压到对应目录（本文软件包存储在/opt/software下，解压至/opt/module目录下）

cd /opt/software
tar -zxvf /opt/software/apache-hive-3.1.2- bin.tar.gz -C /opt/module/
#更改文件夹的名称为hive
 mv /opt/module/apache-hive-3.1.2-bin/ /opt/module/hive

然后更改系统环境变量（本文换将变量存放在/etc/profile.d/my_env.sh）

sudo vim /etc/profile.d/my_env.sh

向环境变量中添加如下配置（根据自己文件存放位置进行更改）

#HIVE_HOME
export HIVE_HOME=/opt/module/hive
export PATH=$PATH:$HIVE_HOME/bin

初始化元数据库

cd /opt/module/hive
bin/schematool -dbType derby -initSchema

启动hive（启动hive前必须将hadoop集群启动起来）

bin/hive

进入如下窗口即说明hive配置成功

然后就可以在这里进行对应的操作了。

至此 hive安装完毕。

总结

hive可以理解为一个进行MapReduce程序的应用，其本质并不是存储数据的。它只是存储数据的元数据信息。然后对元数据信息进行用户相应的语句操作。其出现是为了减少程序员编写MapReduce的需求，通过简单的HQL语句就能生成对应的MapReduce程序。

杂乱无章的我

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
hadoop生态圈----hive

Hive：由 Facebook 开源用于解决海量结构化日志的数据统计工具。Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类 SQL 查询功能。其本质是将hiveSQL转化成MapReduce程序。其处理的数据存储与HDFS上，对数据的处理底层实现是MapReduce，其执行程序运行与yarn上。...
复制链接

扫一扫