Hive全库数据迁移
这里使用的export/import这两个指令
主要的流程
- 将旧集群的hive数据导出至其hdfs中
- 将旧集群hdfs中的导出数据下载到本地中
- 将本地的导出数据上传至新的集群hdfs中
- 将新集群hdfs中的数据导入至新集群中的hive中
1.将旧集群的hive数据导出至其hdfs中
1.1设置hive启动默认数据库
在hive的配置目录中新建.hiverc文件,配置默认的数据库(即你需要导出的数据库)
vim /etc/alternatives/hive-conf/.hiverc
use export_db;
1.2在hdfs上创建导出目录
hdfs dfs -mkdir -p /tmp/export_db_export
1.3导出旧集群的hive数据
- 生成导出脚本
hive -e "show tables;" | awk '{printf "export table %s to |/tmp/export_db_export/%s|;\n",$1,$1}' | sed "s/|/'/g" | grep -v tab_name > /home/export.hql
- 导出数据
hive -f /home/export.hql
2.将导出的数据下载到本地
- 下载数据
hdfs dfs -get /tmp/export_db_export /home/export_db
进去文件夹下相应的表文件夹下,可以看到数据文件夹和元数据文件
drwxr-xr-x. 2 root root 39 Jan 14 21:28 data
-rw-r--r--. 1 root root 1672 Jan 14 21:28 _metadata
3.将本地的导出数据上传至新的集群hdfs中
- 上传数据
hdfs dfs -put /home/export_db /tmp/export_db_export
这里的/tmp/export_db_export需要提前创建
4.将新集群hdfs中的数据导入至新集群中的hive中
4.1 生成导入脚本
我们将之前的export.hql脚本修改下就可以当做我们的import.hql脚本
cp /home/export.sql /home/import.sql
sed -i 's/export /import /g' /home/import.sql
sed -i 's/ to / from /g' /home/import.sql
4.2导入数据
- 这里也需要设置hive的默认数据库
vim /etc/alternatives/hive-conf/.hiverc
use import_db;
- 导入数据
hive -f /home/import.sql
至此Hive数据的迁移就完成.
大家可能在直接使用hive登陆时,无法进入hive数据库,会报一个 character not support的错误;可能是由于使用hive登陆存在漏洞,hive连接被禁用了;这时候需要使用beeline连接hive并进行数据迁移,下面给大家介绍下如何使用beeline来进行数据迁移
修改默认数据库(这里配置文件貌似对beeline不起作用,需要在后面指定)- 创建hdfs目录(同上)
- 使用beeline进行导出脚本的生成
beeline -u jdbc:hive2://test01:10000 -e "use export_db;show tables;"| awk '{printf "export table %s to |/tmp/export_db_export/%s|;\n",$2,$2}' | sed "s/|/'/g"|sed '1,3d'|sed '$d' > /home/export.hql
- 执行导出脚本
在执行脚本前,在脚本第一行指定数据库(目前的笨办法)
sed -i '1i use export_db;' /home/export.hql
beeline -u jdbc:hive2://test01:10000 -n hdfs -f /home/export.hql
这里我在使用的时出现了文件权限的错误,这里建议直接使用hdfs用户进行操作
- 这里使用distcp来进行hdfs文件在新集群的上传
hadoop distcp hdfs://host01:8020/tmp/export_db_export/ hdfs://host02:8020/tmp/export_db_export
新的集群hdfs目录需要提前创建
- 修改import.hql(同上)
cp /home/export.hql /home/import.hql
sed -i 's/export /import /g' /home/import.hql
sed -i 's/ to / from /g' /home/import.hql
sed -i '1d' /home/import.hql
sed -i '1i use import_db;' /home/import.hql
- 导入数据
create database import_db;
beeline -u jdbc:hive2://test01:10000 -n hdfs -f /home/import.hql
至此数据迁移完成.请自行验证
select * from table_name limit 10;