CDH5.x集群Hive1.x与Hive2.x并存使用
文章参考了腾讯云的"如何在CDH集群中安装Hive2.3.3"
https://cloud.tencent.com/developer/article/1158296
并在他的基础上补充了很多细节操作,同时也会跟大家普及Hive1和Hive2共用元数据的方法,这样就可以免去重新抽取数据的痛苦,在搭建完Hive2之后直接可以使用原hive1的所有数据.
1.Hive2.3.7解压安装至服务节点
tar -zxvf apache-hive-2.3.7-bin.tar.gz
解压后移动到 /opt/cloudera/目录下,文件名改为hive-2.3.7
2.hive2metastore在mysql建库及配置用户和访问权限
将Mysql作为Hive2的元数据库,因为如果用自带的dbType数据库,不支持并行.执行语句如下
CREATE DATABASE hive2metastore DEFAULT CHARACTER SET UTF8;
CREATE USER 'hive2'@'%' IDENTIFIED BY '密码';
GRANT ALL PRIVILEGES ON hive2metastore.* TO 'hive2'@'%';
FLUSH PRIVILEGES;
3.制作配置文件:
hive-env.sh
hive-default.xml
hive-log4j2.properties
hive-exec-log4j2.properties
安装包本身自带的配置文件改名成正式文件:
cp hive-env.sh.template hive-env.sh
cp hive-default.xml.template hive-site.xml
cp hive-log4j2.properties.template hive-log4j2.properties
cp hive-exec-log4j2.properties.template hive-exec-log4j2.properties
其中hive-env.sh添加环境变量:
export JAVA_HOME=/usr/java/jdk1.8.0_162 (你自己安装的jdk路径)
export HIVE2_HOME=/opt/cloudera/hive-2.3.7
export HIVE2_CONF_DIR=/opt/cloudera/hive2.3.7/conf
4.添加Hadoop配置文件
在/opt/cloudera/hive2.3.7/conf目录下执行
ln -s /etc/hadoop/conf.cloudera.yarn/ yarn-conf
5.修改hive-site.xml文件(主要修改以下属性):
<name>hive.metastore.uris</name>
javax.jdo.option.ConnectionDriverName
javax.jdo.option.ConnectionURL
javax.jdo.option.ConnectionUserName
javax.jdo.option.ConnectionPassword
hive.exec.scratchdir
hive.metastore.warehouse.dir
hive.repl.rootdir
hive.repl.cmrootdir
参考样例:
Hive2的metastore地址:
<name>hive.metastore.uris</name>
<value>thrift://192.168.5.x:9083</value>
数据库连接属性
数据库连接用户名:
<name>javax.jdo.option.ConnectionUserName</name>
<value>root</value>
数据库连接密码:
<name>javax.jdo.option.ConnectionPassword</name>
<value>密码</value>
连接地址,数据库,属性:
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://192.168.5.x:3306/hive2metastore?useUnicode=true&characterEncoding=UTF-8;useSSL=flase</value>
连接驱动:
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
HDFS存储路径:
<name>hive.exec.scratchdir</name>
<value>/tmp/hive2</value>
Hive2的表的默认位置:
<name>hive.metastore.warehouse.dir</name>
<value>/user/hive2/warehouse</value>
映射位置:
<name>hive.repl.rootdir</name>
<value>/user/hive2/repl/</value>
cm的映射位置:
<name>hive.repl.cmrootdir</name>
<value>/user/hive2/cmroot/</value>
6.在Hive2中配置mysql的JDBC连接驱动
将usr/share/java/mysql-connector.jar复制到Hive2的lib目录下
如果没有这个jar包,需要对应你当前安装的mysql版本去下载,然后放到lib目录
7.创建Hive2的tmp目录并提升权限
mkdir -p /opt/cloudera/hive-2.3.7/tmp/
chmod 777 /opt/cloudera/hive-2.3.7/tmp/
8.将hive-site.xml文件修改
{system:java.io.tmpdir} 改成 /opt/cloudera/hive-2.3.7/tmp/
把{system:user.name} 改成 {user.name}
样例:一共四处:
<name>hive.exec.local.scratchdir</name>
<value>/opt/cloudera/hive-2.3.7/tmp/${user.name}</value>
<name>hive.downloaded.resources.dir</name>
<value>/opt/cloudera/hive-2.3.7/tmp/${hive.session.id}_resources</value>
<name>hive.querylog.location</name>
<value>/opt/cloudera/hive-2.3.7/tmp/${user.name}</value>
<name>hive.server2.logging.operation.log.location</name>
<value>/opt/cloudera/hive-2.3.7/tmp/${user.name}/operation_logs</value>
9.HDFS上创建hive2的warehouse目录,与配置hive-site.xml配置文件中hive.metastore.warehouse.dir一致
执行命令:
sudo -u hdfs hadoop fs -mkdir -p /user/hive2/warehouse
sudo -u hdfs hadoop fs -chown -R hive:hive /user/hive2
sudo -u hdfs hadoop fs -ls /user/hive2
10.使用/bin目录下的schematool初始化hive2metastore
在Hive2的bin目录下执行
./schematool -dbType mysql -initSchema hive2
注意:如果Hive2的元数据库跟Hive1的元数据库使用同一个Mysql,会有报错的情况出现,避免这个问题,直接安装另一个Mysql作为Hive2的元数据库即可.
而且初始化失败也有原因是hive-site.xml的配置问题,因为配置的语句复杂度相对较高,在javax.jdo.option.ConnectionURL,因为配置的属性太多,使用”;”时要添加转义字符&apm(xml文件采用的是html的编译规则),否则不能生效且报错.正确配置为:
jdbc:mysql://192.168.5.x:3306/hive2metastore?useSSL=flase&characterEncoding=UTF-8)
11.启动Hive2的matestore和hive2的hiveserver2服务并记录日志
nohup ./hive --service metastore >hive-metastore.log 2>&1 &
nohup ./hive --service hiveserver2 >hive-server2.log 2>&1 &
为了避免与原hive1冲突,推荐是部署到不同的机器上,如果真要部署在同一台机器上,必须改端口号.
12.CLI方式启动hive2的引擎
在Hive2的bin目录下执行
sudo -u hive ./hive
方案B Hive2复用Hive1元数据
在上述操作的基础上,修改配置文件.
备份Hive1在Mysql当中的元数据库:
mysqldump -uroot -p hive > metastore_backup.sql
修改Hive2的配置文件hive-site.xml:
<name>javax.jdo.option.ConnectionURL</name>
(把Hive2的Mysql元数据库直接指向Hive1的元数据库)
<value>jdbc:mysql://192.168.5.x:3306/hive?useUnicode=true&useSSL=false&characterEncoding=UTF-8</value>
<name>javax.jdo.option.ConnectionUserName</name>
<value>hive</value>
<name>javax.jdo.option.ConnectionPassword</name>
<value>*</value>
<name>hive.metastore.warehouse.dir</name>
把Hive2的warehouse也直接指向Hive1的warehouse
<value>/user/hive/warehouse</value>
登陆mysql数据库,进入hive数据库,进入Hive2.3.7/metastore/scripts/upgrade/mysql/目录,执行该目录下的这5个升级元数据的脚本:
source /tmp/mysql/upgrade-1.1.0-to-1.2.0.mysql.sql
source /tmp/mysql/upgrade-1.2.0-to-2.0.0.mysql.sql
source /tmp/mysql/upgrade-2.0.0-to-2.1.0.mysql.sql
source /tmp/mysql/upgrade-2.1.0-to-2.2.0.mysql.sql
source /tmp/mysql/upgrade-2.2.0-to-2.3.0.mysql.sql
然后重启Hive2的服务.
这样,Hive2就能够直接复用Hive1的所有数据.
报错解决
Hive2的JDBC连接方式报错解决
User: root is not allowed to impersonate hive.
关闭Hive2当中的HiveServer2连接配置调用操作,
hive-site.xml下,修改如下配置:
<property>
<name>hive.server2.enable.doAs</name>
<value>false</value>
<description>
Setting this property to true will have HiveServer2 execute
Hive operations as the user making the calls to it.
</description>
</property>
Hive2.3与CDH原来的Hbase兼容使用
这种情况是Hive创建过Hbase的外表,Hive2需要对原Hive1创建的外表进行操作的时候要添加的.
修改Hive2的配置文件hive-site.xml,添加Hbase.zookeeper的指向:
<property>
<name>hbase.zookeeper.quorum</name>
<value>安装过zookeeper的主机名</value>
</property>
<property>
<name>hbase.zookeeper.property.clientPort</name>
<value>2181</value>
</property>