CDH5.X
版本 hive1.x
与 hive2.x
并存使用(升级方案)
1.Hive 2.3.9
下载解压安装至服务节点
wget https://mirror.tuna.tsinghua.edu.cn/apache/hive/hive-2.3.9/apache-hive-2.3.9-bin.tar.gz
tar -zxvf apache-hive-2.3.9-bin.tar.gz
# 解压后移动到 /opt/cloudera/目录下,文件名改为hive2
mv apache-hive-2.3.9-bin /opt/cloudera/hive2
2.Hive2 Metastore
在Mysql
建库及配置用户和访问权限
将 Mysql
作为 Hive2
的元数据库,因为如果用自带的dbType数据库,不支持并行.执行语句如下
CREATE DATABASE hive2metastore DEFAULT CHARACTER SET UTF8;
CREATE USER 'hive2'@'%' IDENTIFIED BY '123456';
GRANT ALL PRIVILEGES ON hive2metastore.* TO 'hive2'@'%';
FLUSH PRIVILEGES;
3.制作配置文件:
hive-env.sh
hive-default.xml
hive-log4j2.properties
hive-exec-log4j2.properties
安装包本身自带的配置文件改名成正式文件:
cp hive-env.sh.template hive-env.sh ; cp hive-default.xml.template hive-site.xml ; cp hive-log4j2.properties.template hive-log4j2.properties ; cp hive-exec-log4j2.properties.template hive-exec-log4j2.properties
其中hive-env.sh添加环境变量:
export JAVA_HOME=/usr/java/jdk1.8.0_181-cloudera(你自己安装的jdk路径)
export HIVE2_HOME=/opt/cloudera/hive2
export HIVE2_CONF_DIR=/opt/cloudera/hive2/conf
4.添加 Hadoop
配置文件
在 /opt/cloudera/hive2.3.7/conf
目录下执行
5.修改hive-site.xml文件(主要修改以下属性):
<name>hive.metastore.uris</name>
javax.jdo.option.ConnectionDriverName
javax.jdo.option.ConnectionURL
javax.jdo.option.ConnectionUserName
javax.jdo.option.ConnectionPassword
hive.exec.scratchdir
hive.metastore.warehouse.dir
hive.repl.rootdir
hive.repl.cmrootdir
参考样例:
Hive2的metastore地址:
<name>hive.metastore.port</name>
<value>9084</value>
<name>hive.metastore.uris</name>
<value>thrift://192.168.42.149:9084</value>
数据库连接属性
数据库连接用户名:
<name>javax.jdo.option.ConnectionUserName</name>
<value>root</value>
数据库连接密码:
<name>javax.jdo.option.ConnectionPassword</name>
<value>密码</value>
连接地址,数据库,属性:
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://192.168.42.149:3306/hive2metastore?useUnicode=true</value>
连接驱动:
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
HDFS存储路径:
<name>hive.exec.scratchdir</name>
<value>/tmp/hive2</value>
Hive2的表的默认位置:
<name>hive.metastore.warehouse.dir</name>
<value>/user/hive2/warehouse</value>
映射位置:
<name>hive.repl.rootdir</name>
<value>/user/hive2/repl/</value>
cm的映射位置:
<name>hive.repl.cmrootdir</name>
<value>/user/hive2/cmroot/</value>
6.在Hive2中配置mysql的JDBC连接驱动
将 usr/share/java/mysql-connector.jar
复制到Hive2的lib目录下
如果没有这个jar包,需要对应你当前安装的mysql版本去下载,然后放到lib目录
7.创建Hive2的tmp目录并提升权限
mkdir -p /opt/cloudera/hive2/tmp/ && chmod 777 /opt/cloudera/hive2/tmp/
8.将hive-site.xml文件修改
{system:java.io.tmpdir} 改成 /opt/cloudera/hive2/tmp/
把{system:user.name} 改成 {user.name}
样例:一共四处:
<name>hive.exec.local.scratchdir</name>
<value>/opt/cloudera/hive-2.3.7/tmp/${user.name}</value>
<name>hive.downloaded.resources.dir</name>
<value>/opt/cloudera/hive-2.3.7/tmp/${hive.session.id}_resources</value>
<name>hive.querylog.location</name>
<value>/opt/cloudera/hive-2.3.7/tmp/${user.name}</value>
<name>hive.server2.logging.operation.log.location</name>
<value>/opt/cloudera/hive-2.3.7/tmp/${user.name}/operation_logs</value>
hive-site.xml
配置:https://gitee.com/zackyoung/drawing-bed/blob/master/file/hive-site.xml
9.HDFS
上创建hive2的warehouse目录,与配置 hive-site.xml
配置文件中 hive.metastore.warehouse.dir
一致
执行命令:
sudo -u hdfs hadoop fs -mkdir -p /user/hive2/warehouse
sudo -u hdfs hadoop fs -chown -R hive:hive /user/hive2
sudo -u hdfs hadoop fs -ls /user/hive2
sudo -u hdfs hadoop fs -chmod -R 777 /user/hive2
10.使用/bin目录下的schematool初始化 hive2 metastore
在Hive2的bin目录下执行
./schematool -dbType mysql -initSchema hive2
注意: 如果Hive2的元数据库跟Hive1的元数据库使用同一个Mysql,会有报错的情况出现,避免这个问题,直接安装另一个Mysql作为Hive2的元数据库即可.
而且初始化失败也有原因是hive-site.xml的配置问题,因为配置的语句复杂度相对较高,在javax.jdo.option.ConnectionURL,因为配置的属性太多,使用”;”时要添加转义字符&apm(xml文件采用的是html的编译规则),否则不能生效且报错.正确配置为:
jdbc:mysql://192.168.42.149:3306/hive2metastore?useSSL=flase&characterEncoding=UTF-8)
11.启动Hive2的matestore和hive2的hiveserver2服务并记录日志
nohup ./hive --service metastore >hive-metastore.log 2>&1 &
nohup ./hive --service hiveserver2 >hive-server2.log 2>&1 &
为了避免与原hive1冲突,推荐是部署到不同的机器上,如果真要部署在同一台机器上,必须改端口号.(我这边上面把端口号改成了
9084
)
12.CLI方式启动hive2的引擎
在Hive2的bin目录下执行
sudo -u hive ./hive
方案B Hive2复用Hive1元数据
在上述操作的基础上,修改配置文件.
备份Hive1在Mysql当中的元数据库:
mysqldump -uroot -p hive > metastore_backup.sql
修改Hive2的配置文件hive-site.xml:
<name>javax.jdo.option.ConnectionURL</name>
(把Hive2的Mysql元数据库直接指向Hive1的元数据库)
<value>jdbc:mysql://192.168.42.149:3306/hive1metastore?useUnicode=true</value>
<name>javax.jdo.option.ConnectionUserName</name>
<value>hive</value>
<name>javax.jdo.option.ConnectionPassword</name>
<value>*</value>
<name>hive.metastore.warehouse.dir</name>
把Hive2的warehouse也直接指向Hive1的warehouse
<value>/user/hive/warehouse</value>
登陆mysql数据库,进入hive数据库,进入hive2/scripts/metastore/upgrade/mysql目录,执行该目录下的这5个升级元数据的脚本:
cd /opt/cloudera/hive2/scripts/metastore/upgrade/mysql
source upgrade-1.1.0-to-1.2.0.mysql.sql
source upgrade-1.2.0-to-2.0.0.mysql.sql
source upgrade-2.0.0-to-2.1.0.mysql.sql
source upgrade-2.1.0-to-2.2.0.mysql.sql
source upgrade-2.2.0-to-2.3.0.mysql.sql
然后重启Hive2的服务.
这样,Hive2就能够直接复用Hive1的所有数据.(亲测可用)
报错解决
- Hive2.3与CDH原来的Hbase兼容使用
这种情况是Hive创建过Hbase的外表,Hive2需要对原Hive1创建的外表进行操作的时候要添加的.
修改Hive2的配置文件hive-site.xml,添加Hbase.zookeeper的指向:
<property>
<name>hbase.zookeeper.quorum</name>
<value>安装过zookeeper的主机名</value>
</property>
<property>
<name>hbase.zookeeper.property.clientPort</name>
<value>2181</value>
</property>
注意
- 升级完毕后需检查hive的全表,可能出现部分不兼容等问题
参考
[CDH5.x集群Hive1.x与Hive2.x并存使用](