Hive配置安装部署

最新推荐文章于 2024-07-11 12:00:00 发布

原创最新推荐文章于 2024-07-11 12:00:00 发布 · 2.9k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#hive #学习

大数据专栏收录该内容

8 篇文章

订阅专栏

本文档详细介绍了Hive的安装、配置过程，包括元数据存储在MySQL中，以及Hive的优缺点、架构原理和运行机制。还涵盖了如何在Linux环境下解压安装Hive，设置环境变量，初始化元数据库，以及配置Hive使用MySQL作为元数据存储，并提供了启动Hive服务的脚本。此外，还提到了Hive的日志配置和常见参数设置方法。

@[Hive配置]

安装hive所用到的包我都放在了百度网盘，要的来拿
链接：https://pan.baidu.com/s/1fqHXZ0ijP4i5FAFudm6oTQ
提取码：1zkf

1、hive基本概念

hive是Facebook开源，用于解决海量结构化日志的数据统计工具。是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。
本质上是将HQL转化为MapReduce程序执行

hive处理的数据存储在hdfs上。
hive分析数据底层实现是MapReduce。
执行程序运行在yarn上

1.1、hive优缺点

1、优点：
（1）、操作接口采用类SQL语法，简单易上手。
（2）、省去了写MapReduce，减少学习成本。
（3）、支持自定义函数
2、缺点
hql表达能力有限
（1）、迭代式算法无法表达
（2）、数据挖掘方面不擅长，由于MapReduce数据处理流程的限制，效率更高的算法无法实现。
效率较低
（3）hive自动生成的MapReduce不够智能化
（4）hive调优比较困难，粒度较粗

1.2、hive架构原理

在这里插入图片描述
1）用户接口：Client
CLI（command-line interface）、JDBC/ODBC(jdbc 访问 hive)、WEBUI（浏览器访问 hive）
2）元数据：Metastore
元数据包括：表名、表所属的数据库（默认是 default）、表的拥有者、列/分区字段、表的类型（是否是外部表）、表的数据所在目录等
3）hadoop
使用 HDFS 进行存储，使用 MapReduce 进行计算。
4）驱动器：Driver
（1）解析器（SQL Parser）：将 SQL 字符串转换成抽象语法树 AST，这一步一般都用第三方工具库完成，比如 antlr；对 AST 进行语法分析，比如表是否存在、字段是否存在、SQL语义是否有误。
（2）编译器（Physical Plan）：将 AST 编译生成逻辑执行计划。
（3）优化器（Query Optimizer）：对逻辑执行计划进行优化。
（4）执行器（Execution）：把逻辑执行计划转换成可以运行的物理计划。对于 Hive 来说，就是 MR/Spark。

1.3、hive运行机制

在这里插入图片描述 hive通过用户提供的一系列交互接口，接收到用户的指令SQL，使用自己的Driver，结合元数据（MetaStore）将这些指令翻译成MapReduce，提交到hadoop中执行，将返回的结果输出到用户交互接口。

1.4 Hive 和数据库比较

由于 Hive 采用了类似 SQL 的查询语言 HQL(Hive Query Language)，因此很容易将 Hive 理解为数据库。其实从结构上来看，Hive 和数据库除了拥有类似的查询语言，再无类似之处。
1.4.1 查询语言
由于 SQL 被广泛的应用在数据仓库中，因此，专门针对 Hive 的特性设计了类 SQL 的查询语言 HQL。熟悉 SQL 开发的开发者可以很方便的使用 Hive 进行开发。
1.4.2 数据更新
由于 Hive 是针对数据仓库应用设计的，而数据仓库的内容是读多写少的。因此，Hive 中不建议对数据的改写，所有的数据都是在加载的时候确定好的。
1.4.3 执行延迟
Hive 在查询数据的时候，由于没有索引，需要扫描整个表，因此延迟较高。另外一个导致 Hive 执行延迟高的因素是 MapReduce 框架。由于 MapReduce 本身具有较高的延迟，因此在利用 MapReduce 执行 Hive 查询时，也会有较高的延迟。相对的，数据库的执行延迟较低。当然，这个低是有条件的，即数据规模较小，当数据规模大到超过数据库的处理能力的时候，Hive 的并行计算显然能体现出优势。
1.4.4 数据规模
由于 Hive 建立在集群上并可以利用 MapReduce 进行并行计算，因此可以支持很大规模的数据；对应的，数据库可以支持的数据规模较小。

2 hive安装部署

2.1、 Hive 安装地址

1）Hive 官网地址
http://hive.apache.org/
2）文档查看地址
https://cwiki.apache.org/confluence/display/Hive/GettingStarted
3）下载地址
http://archive.apache.org/dist/hive/

2.2Hive 安装部署

2.2.1 安装 Hive

1）把 apache-hive-3.1.2-bin.tar.gz 上传到 linux 的/opt/software 目录下

2）解压 apache-hive-3.1.2-bin.tar.gz 到/opt/module/目录下面

tar -zxvf /opt/software/apache-hive-3.1.2-bin.tar.gz -C /opt/module/

3）修改 apache-hive-3.1.2-bin.tar.gz 的名称为 hive

mv /opt/module/apache-hive-3.1.2-bin/ 
/opt/module/hive

4）修改/etc/profile.d/my_env.sh，添加环境变量

sudo vim /etc/profile.d/my_env.sh

5）添加内容

#HIVE_HOME
export HIVE_HOME=/opt/module/hive
export PATH=$PATH:$HIVE_HOME/bin

6）初始化元数据库

[hadoop@hadoop01 hive]$ bin/schematool -dbType derby -initSchema

2.2.2 启动并使用 Hive

1）启动 Hive

[hadoop@hadoop01 hive]$ bin/hive

2）使用 Hive

hive> show databases;
hive> show tables;
hive> create table test(id int);
hive> insert into test values(1);
hive> select * from test;

如果可以正常使用就可以下一步

2.3MySQL 安装

1）检查当前系统是否安装过 MySQL

[hadoop@hadoop01 ~]$ rpm -qa|grep mariadb
mariadb-libs-5.5.56-2.el7.x86_64

//如果存在通过如下命令卸载

[hadoop@hadoop01 ~]$ sudo rpm -e --nodeps mariadb-libs

2）将 MySQL 安装包拷贝到/opt/software 目录下
3）解压 MySQL 安装包

[hadoop@hadoop01 software]# tar -xf mysql-5.7.28-1.el7.x86_64.rpm-bundle.tar

4）在安装目录下执行 rpm 安装

[hadoop@hadoop01 software]$ 
yum install -y libaio
sudo rpm -ivh mysql-community-common-5.7.28-1.el7.x86_64.rpm
sudo rpm -ivh mysql-community-libs-5.7.28-1.el7.x86_64.rpm
sudo rpm -ivh mysql-community-libs-compat-5.7.28-1.el7.x86_64.rpm
sudo rpm -ivh mysql-community-client-5.7.28-1.el7.x86_64.rpm
sudo rpm -ivh mysql-community-server-5.7.28-1.el7.x86_64.rpm

5）删除/etc/my.cnf 文件中 datadir 指向的目录下的所有内容,如果有内容的情况下:

 查看 datadir 的值：
[mysqld]
datadir=/var/lib/mysql
 删除/var/lib/mysql 目录下的所有内容:
[hadoop@hadoop01 mysql]# cd /var/lib/mysql
[hadoop@hadoop01 mysql]# sudo rm -rf ./* //注意执行命令的位置

6）初始化数据库

[hadoop@hadoop01 opt]$ sudo mysqld --initialize --user=mysql

7）查看临时生成的 root 用户的密码

[hadoop@hadoop01 opt]$ sudo cat /var/log/mysqld.log

8）启动 MySQL 服务

[hadoop@hadoop01 opt]$ sudo systemctl start mysqld

9）登录 MySQL 数据库

[hadoop@hadoop01 opt]$ mysql -uroot -p
Enter password: 输入临时生成的密码
 登录成功.

10）必须先修改 root 用户的密码,否则执行其他的操作会报错

mysql> set password = password("新密码");

11）修改 mysql 库下的 user 表中的 root 用户允许任意 ip 连接

mysql> update mysql.user set host='%' where user='root';
mysql> flush privileges;

2.4 Hive 元数据配置到 MySQL

2.4.1 拷贝驱动

将 MySQL 的 JDBC 驱动拷贝到 Hive 的 lib 目录下

[hadoop@hadoop01 software]$ cp /opt/software/mysql-connector-java5.1.37.jar $HIVE_HOME/lib

1）在$HIVE_HOME/conf 目录下新建 hive-site.xml 文件

[hadoop@hadoop01 software]$ vim $HIVE_HOME/conf/hive-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
 <!-- jdbc 连接的 URL -->
 <property>
 <name>javax.jdo.option.ConnectionURL</name>
 <value>jdbc:mysql://主机名:3306/metastore?useSSL=false</value>
</property>
 <!-- jdbc 连接的 Driver-->
 <property>
 <name>javax.jdo.option.ConnectionDriverName</name>
 <value>com.mysql.jdbc.Driver</value>
</property>
<!-- jdbc 连接的 username-->
 <property>
 <name>javax.jdo.option.ConnectionUserName</name>
 <value>mysql用户</value>
 </property>
 <!-- jdbc 连接的 password -->
 <property>
 <name>javax.jdo.option.ConnectionPassword</name>
 <value>mysql密码</value>
</property>
 <!-- Hive 元数据存储版本的验证 -->
 <property>
 <name>hive.metastore.schema.verification</name>
 <value>false</value>
</property>
 <!--元数据存储授权-->
 <property>
<name>hive.metastore.event.db.notification.api.auth</name>
 <value>false</value>
 </property>
 <!-- Hive 默认在 HDFS 的工作目录 -->
 <property>
 <name>hive.metastore.warehouse.dir</name>
 <value>/user/hive/warehouse</value>
 </property>
</configuration>

2）登陆 MySQL

[hadoop@hadoop01 software]$ mysql -uroot -p000000

3）新建 Hive 元数据库

mysql> create database metastore;
mysql> quit;

4）初始化 Hive 元数据库

[hadoop@hadoop01 software]$ schematool -initSchema -dbType mysql -verbose

5）hive启动脚本

[hadoop@hadoop01 hive]$ vim $HIVE_HOME/bin/hiveservices.sh

照抄

#!/bin/bash
HIVE_LOG_DIR=$HIVE_HOME/logs
if [ ! -d $HIVE_LOG_DIR ]
then
    mkdir -p $HIVE_LOG_DIR
fi
#检查进程是否运行正常，参数 1 为进程名，参数 2 为进程端口
function check_process()
{
   pid=$(ps -ef 2>/dev/null | grep -v grep | grep -i $1 | awk '{print $2}')
   ppid=$(netstat -nltp 2>/dev/null | grep $2 | awk '{print $7}' | cut -d '/' -f 1)
 echo $pid
 	 [[ "$pid" =~ "$ppid" ]] && [ "$ppid" ] && return 0 || return 1}
function hive_start()
{
   metapid=$(check_process HiveMetastore 9083)
   cmd="nohup hive --service metastore >$HIVE_LOG_DIR/metastore.log 2>&1 &"
 [ -z "$metapid" ] && eval $cmd || echo "Metastroe 服务已启动"
 server2pid=$(check_process HiveServer2 10000)
 cmd="nohup hiveserver2 >$HIVE_LOG_DIR/hiveServer2.log 2>&1 &"
 [ -z "$server2pid" ] && eval $cmd || echo "HiveServer2 服务已启动"
}
function hive_stop()
{
   metapid=$(check_process HiveMetastore 9083)
   [ "$metapid" ] && kill $metapid || echo "Metastore 服务未启动"
   server2pid=$(check_process HiveServer2 10000)
   [ "$server2pid" ] && kill $server2pid || echo "HiveServer2 服务未启动"
}
case $1 in
"start")
   hive_start
 ;;
"stop")
   hive_stop
 ;;
"restart")
   hive_stop
   sleep 2
   hive_start
 ;;
"status")
   check_process HiveMetastore 9083 >/dev/null && echo "Metastore 服务运行正常" || echo "Metastore 服务运行异常"
   check_process HiveServer2 10000 >/dev/null && echo "HiveServer2 服务运行正常" || echo "HiveServer2 服务运行异常"
 ;;
*)
   echo Invalid Args!
   echo 'Usage: '$(basename $0)' start|stop|restart|status'
 ;;
esac

3）添加执行权限

[hadoop@hadoop01 hive]$ chmod +x $HIVE_HOME/bin/hiveservices.sh

4）启动 Hive 后台服务

[hadoop@hadoop01 hive]$ hiveservices.sh start

2.9 Hive 常见属性配置

2.9.1 Hive 运行日志信息配置

1）Hive 的 log 默认存放在/tmp/用户/hive.log 目录下（当前用户名下）
2）修改 hive 的 log 存放日志到/opt/module/hive/logs
（1）修改/opt/module/hive/conf/hive-log4j2.properties.template 文件名称为hive-log4j2.properties

[hadoop@hadoop01 conf]$ pwd
/opt/module/hive/conf
[hadoop@hadoop01 conf]$ mv hive-log4j2.properties.template hivelog4j2.properties

（2）在 hive-log4j2.properties 文件中修改 log 存放位置
hive.log.dir=/opt/module/hive/logs
2.9.2 打印当前库和表头
在 hive-site.xml 中加入如下两个配置:

	 <property>
		 <name>hive.cli.print.header</name>
		 <value>true</value>
	 </property>
	 <property>
		 <name>hive.cli.print.current.db</name>
		 <value>true</value>
	 </property>

2.9.3 参数配置方式
1）查看当前所有的配置信息

hive>set;

2）参数的配置三种方式
（1）配置文件方式
默认配置文件：hive-default.xml
用户自定义配置文件：hive-site.xml
注意：用户自定义配置会覆盖默认配置。另外，Hive 也会读入 Hadoop 的配置，因为 Hive
是作为 Hadoop 的客户端启动的，Hive 的配置会覆盖 Hadoop 的配置。配置文件的设定对本
机启动的所有 Hive 进程都有效。
（2）命令行参数方式
启动 Hive 时，可以在命令行添加-hiveconf param=value 来设定参数。
例如：

[hadoop@hadoop01 hive]$ bin/hive -hiveconf mapred.reduce.tasks=10;

注意：仅对本次 hive 启动有效
查看参数设置：

hive (default)> set mapred.reduce.tasks;

（3）参数声明方式
可以在 HQL 中使用 SET 关键字设定参数
例如：

hive (default)> set mapred.reduce.tasks=100;

注意：仅对本次 hive 启动有效。
查看参数设置

hive (default)> set mapred.reduce.tasks;

上述三种设定方式的优先级依次递增。即配置文件<命令行参数<参数声明。注意某些系
统级的参数，例如 log4j 相关的设定，必须用前两种方式设定，因为那些参数的读取在会话
建立以前已经完成了。

到这就配置完成了。