文档编写目的
在日常使用中你的Kudu 集群版本非常低或者部署在其他非CDH集群中,迁移起来非常麻烦。本文主要介绍如何通过Hive 进行跨集群迁移Kudu 表
- 测试环境:
1.原集群版本CDH 5.16.2、Kudu 1.7
2.目标集群版本CDP 7.1.1 、Kudu 1.12
操作步骤
1、首先查看原表结构如下:
show create table default.test_tbl;
![22c71e1b5c2f8df17bd9ab611af1a23b.png](https://i-blog.csdnimg.cn/blog_migrate/70f07b78794df0f578ef644dc254fe18.jpeg)
查询表数据
select * from default.test limit 10;
![79e11234351deaec00e82b5fb263ba73.png](https://i-blog.csdnimg.cn/blog_migrate/51afe3194c3ee19dbe5f31da1cbbdc0a.jpeg)
然后导出表数据为csv文件并查看,注:impala 25003 端口由于启用了负载均衡的
impala-shell -i xxxcli1:25003 -q "select * from default.test_tbl" -B -output_delimiter="," -o test_tbl_kudu.csv
![239d83465cefb360597fc6439d440824.png](https://i-blog.csdnimg.cn/blog_migrate/0edd84a8a19b523e17e9e4c40325ba43.jpeg)
将导出的数据文件拷贝到其他集群的节点,通过HDFS distcp或者直接本地拷贝都可以,这里测试使用的本地拷贝
scp -rp test_tbl_kudu.csv root@xxx01kf:/tmp/cat test_tbl_kudu.csv
![9b3aad61f8b1ad90da17868a4227b706.png](https://i-blog.csdnimg.cn/blog_migrate/92bf2afa6bffbd3f676a3d6a591ab402.jpeg)
在CDP7.1.1 的新集群中创建Hive表
CREATE TABLE default.test_tbl (id INT,name STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE;
![7955ccf8d731dfb72074f2de1f4e4f01.png](https://i-blog.csdnimg.cn/blog_migrate/f1384e4cf80745e1b79ee426c35a3258.jpeg)
load csv 文件数据导入到刚刚新建的Hive表中,这里使用本地load 的方式
load data local inpath '/tmp/test_tbl_kudu.csv' into table default.test_tbl;
![1d4389917322ccce573f7943da1a546b.png](https://i-blog.csdnimg.cn/blog_migrate/3684520482b7315296c0a5a7d4d4eb0a.jpeg)
在CDP7.1.1 的新集群中创建kudu 表,注:新集群这里没有启用负载均衡故端口为21000
#在新集群的节点执行命令进入impala-shell 命令行impala-shell -i xxxx05kf:21000#创建kudu 表CREATE TABLE default.test_tbl2 ( id INT NOT NULL ENCODING AUTO_ENCODING COMPRESSION DEFAULT_COMPRESSION, name STRING NULL ENCODING AUTO_ENCODING COMPRESSION DEFAULT_COMPRESSION, PRIMARY KEY (id) ) PARTITION BY HASH (id) PARTITIONS 16 STORED AS KUDU;
![a5c1dd9ae6c07602921f551ca6d078f6.png](https://i-blog.csdnimg.cn/blog_migrate/2bbde6c90622661a86339b17c616520e.jpeg)
从Hive 表中查询并导入数据到新建的Kudu 表中,记得先在Impala 中进行refresh 操作,否则会没有数据,然后进行查询,验证并成功完成迁移
refresh default.test_tbl;insert into default.test_tbl2 select * from default.test_tbl;select * from default.test_tbl2;
总结
本文讲述通过Hive 进行跨集群迁移Kudu 表是一种效率较低但是非常通用的方式,在后面的文章中Fayson 将讲述如何通过Kudu 自带的Kudu Command Line Tools 进行Kudu 表迁移。