大数据从入门到实战 - Hive的安装与配置

发芽ing的小啊呜

已于 2023-11-29 10:13:08 修改

阅读量1.1w

点赞数 13

分类专栏： # 大数据&云计算基础文章标签：数据库大数据 hive Hadoop sql

于 2021-01-14 00:05:13 首次发布

本文链接：https://blog.csdn.net/qq_43543789/article/details/112596915

版权

大数据&云计算基础专栏收录该内容

31 篇文章 145 订阅

订阅专栏

大数据从入门到实战 - Hive的安装与配置

一、关于此次实践
- 1、实战简介
- 2、全部任务
二、实践详解
- 1、第1关：Hive的安装与配置
- 2、第2关：Hive Shell入门基础命令

叮嘟！这里是小啊呜的学习课程资料整理。好记性不如烂笔头，今天也是努力进步的一天。一起加油进阶吧！
在这里插入图片描述

一、关于此次实践

1、实战简介

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能，可以将SQL语句转换为 MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

本实训介绍了基于Hadoop环境的hive的安装与配置。

2、全部任务

在这里插入图片描述

二、实践详解

1、第1关：Hive的安装与配置

在这里插入图片描述
评测

详细过程

任务描述

本关任务：在已安装Hadoop的基础上安装配置好Hive并运行。

相关知识

为了完成本关任务，你需要掌握：

1.Hive的基本安装；
2.Mysql的安装与设置；
3.Hive 的配置。

注意：本关实训Hive的安装与配置建立在Hadoop已安装配置好的情况下。

Hive 的基本安装

从官网下载Hive二进制包，不过这里你无须再从网上下载，系统已经帮你下载好了放在/opt目录下。

进入/opt目录，解压apache-hive-3.1.0-bin.tar.gz到该目录下，并将解压的文件重命名为hive；

cd /opt
tar -zxvf apache-hive-3.1.0-bin.tar.gz
mv apache-hive-3.1.0-bin hive

设置环境变量，编辑vi /etc/profile，在末尾添加以下两行代码；

export HIVE_HOME=/opt/hive
export PATH=$HIVE_HOME/bin:$PATH

source /etc/profile使环境生效；
查看hive是否安装成功：hive --version。

在这里插入图片描述

出现hive版本就说明安装成功，但是可以看到其中有一些警告信息，是由于包的冲突引起的。我们只需删除掉引起冲突的包即可：rm /opt/hive/lib/log4j-slf4j-impl-2.10.0.jar。

在这里插入图片描述

Mysql 的安装与设置

平台已安装MySQL数据库，大家在本地没有安装可以采用以下命令进行安装：

sudo apt-get install mysql-server   #安装mysql服务
apt-get install mysql-client        #安装mysql客户端
sudo apt-get install libmysqlclient-dev  #安装相关依赖环境

注意：安装过程中会提示设置密码什么的，不要忘了设置。

安装完成之后可以使用如下命令来检查是否安装成功。

sudo netstat -tap | grep mysql

通过上述命令检查之后，如果看到有MySQL的socket处于listen 状态则表示安装成功。

Hive需要数据库来存储metastore的内容，因此我们需要配置一下MySQL数据库。

下载mysql驱动；

系统已经帮你下载好放在/opt目录下，进入该目录并进行以下操作：

tar -zxvf mysql-connector-java-5.1.45.tar.gz
cd mysql-connector-java-5.1.45
cp mysql-connector-java-5.1.45-bin.jar /opt/hive/lib/

接下来介绍MySQL为Hive做的设置。

使用root用户登录MySQL数据库；

mysql -uroot -p123123 -h127.0.0.1

创建数据库实例hiveDB；

create database hiveDB;

创建用户bee，密码为123123；

create user 'bee'@'%' identified by '123123';

授权用户bee拥有数据库实例hiveDB的所有权限；

grant all privileges on hiveDB.* to 'bee'@'%' identified by '123123';

刷新系统权限表。

flush privileges;

Hive 的配置
在/opt/hive/conf目录下，修改hive-site.xml和hive-env.sh两个文件。

hive-site.xml
hive-site.xml保存Hive运行时所需要的相关配置信息。

如果目录下没有该文件，我们直接创建一个：vi hive-site.xml，将以下内容复制到其中（按i进入编辑模式后再进行粘贴）。

<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<!-- WARNING!!! This file is auto generated for documentation purposes ONLY! -->
<!-- WARNING!!! Any changes you make to this file will be ignored by Hive.   -->
<!-- WARNING!!! You must make your changes in hive-site.xml instead.         -->
<!-- Hive Execution Parameters -->
 <property>
 <name>hive.metastore.warehouse.dir</name>
 <value>/opt/hive/warehouse</value>
 </property>
 <property>
 <name>hive.exec.scratchdir</name>
 <value>/opt/hive/tmp</value>
 </property>
 <property>
 <name>hive.querylog.location</name>
 <value>/opt/hive/logs</value>
 </property>
 <property>
 <name>hive.server2.thrift.port</name>
 <value>10000</value>
 </property>
 <property>
 <name>hive.server2.thrift.bind.host</name>
 <value>localhost</value>
 </property>
 <property>
 <name>hive.server2.enable.doAs</name>
 <value>true</value>
 </property>
 <property>
 <name>hive.session.id</name>
 <value>false</value>
 </property>
 <property>
 <name>hive.session.silent</name>
 <value>false</value>
 </property>
 <property>
 <name>javax.jdo.option.ConnectionURL</name>
 <value>jdbc:mysql://localhost:3306/hiveDB?createDatabaseIfNotExist=true</value>
 </property>
 <property>
 <name>javax.jdo.option.ConnectionDriverName</name>
 <value>com.mysql.jdbc.Driver</value>
 </property>
 <property>
 <name>javax.jdo.option.ConnectionUserName</name>
 <value>bee</value>
 <!-- 这里是之前设置的数据库 -->
 </property>
 <property>
 <name>javax.jdo.option.ConnectionPassword</name>
 <!-- 这里是数据库密码 -->
 <value>123123</value>
 </property>
</configuration>

完成后，在命令行模式（按 Esc），输入:wq保存退出。

hive-env.sh

由于Hive是一个基于Hadoop分布式文件系统的数据仓库架构，主要运行在 Hadoop分布式环境下，因此，需要在文件hive-env.sh中指定Hadoop相关配置文件的路径，用于Hive访问HDFS（读取fs.defaultFS属性值）和 MapReduce（读取mapreduce.jobhistory.address属性值）等Hadoop 相关组件。

如果目录下没有该文件，我们就以模板复制一个cp hive-env.sh.template hive-env.sh。vi hive-env.sh打开文件，在文件末尾添加变量指向 Hadoop 的安装路径：
HADOOP_HOME=/usr/local/hadoop #在本地环境安装，要根据自己hadoop的路径来确定

至此Hive配置完成。

第一次启动Hive前还需要执行初始化命令：schematool -dbType mysql -initSchema。

2、第2关：Hive Shell入门基础命令

在这里插入图片描述
评测

关于Hive Shell入门基础命令

任务描述

本关任务：按照编程要求，在Hive下创建表。

相关知识

Hive Shell运行在Hadoop集群环境上，是Hive提供的命令行接口（CLI），在Hive提示符输入HiveQL命令，Hive Shell把HQL查询转换为一系列MapReduce作业对任务进行并行处理，然后返回处理结果。

为了完成本关任务，你需要掌握：Hive Shell常用命令。

Hive Shell 常用命令

注意：Hive命令必须以分号;结束。

启动 Hive Shell：hive；
出现hive>说明启动成功。
查询数据库：show databases;；
查询表：show tables;；

因为该数据库下没有创建表，所以输出结果为0行。
创建数据库mydb：create database mydb;；
删除数据库mydb：drop database mydb;；
创建表mytable，有id字段，数据类型为int：create table mytable(id int);
删除表mytable：drop table mytable;；
退出 Hive Shell：exit;。

Hive Shell 非交互式运行
我们也可以不启动Hive Shell，直接在Linux的命令行操作Hive。

hive -e 'show databases;'；

在这里插入图片描述

在Hive的交互式模式和非交互式模式下，执行HiveQL操作都会输出执行过程信息，如执行查询操作所用时间，通过指定-S选项可以禁止输出此类信息。

hive -S -e 'show databases;'。

在这里插入图片描述

Ending！
更多课程知识学习记录随后再来吧！

就酱，嘎啦！

在这里插入图片描述

注：
人生在勤，不索何获。

发芽ing的小啊呜

关注

13
点赞
踩
114

收藏

觉得还不错? 一键收藏
打赏
10
评论
大数据从入门到实战 - Hive的安装与配置

大数据从入门到实战 - Hive的安装与配置一、关于此次实践1、实战简介2、全部任务二、实践详解1、第1关：Hive的安装与配置2、第2关：Hive Shell入门基础命令叮嘟！这里是小啊呜的学习课程资料整理。好记性不如烂笔头，今天也是努力进步的一天。一起加油进阶吧！
复制链接

扫一扫