Hive数据迁移

最新推荐文章于 2024-05-16 01:15:11 发布

wangzfox

最新推荐文章于 2024-05-16 01:15:11 发布

阅读量679

点赞数

分类专栏： Hive 数据迁移

本文链接：https://blog.csdn.net/wangzfox/article/details/50226015

版权

Hive 同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

数据迁移

1 篇文章 0 订阅

订阅专栏

简介

基于全表导出和全表导入。流程为Source Hive -> Source HDFS Cluster -> Destination HDFS Cluster -> Destination Hive

（Source端）群集操作

1. 创建导出临时目录

这里定为hdfs://tmp/hive-export/<database name>
假设这里导出的数据库名为cdp_data

$ sudo -u hdfs dfs -mkdir -p /tmp/hive-export/cdp_data

2. 生成导出数据脚本

$ sudo -u hdfs hive -e "use cdp_data; show tables;" | \awk '{printf "export table %s to @/tmp/hive-export/cdp_data%s@;\n",$1,$1}' | \sed "s/@/'/g" > export.hql

3. 执行导出数据脚本

$ sudo -u hdfs hive -e "use cdp_data; source export.hql"

4. 数据导出完成

（Destination端）群集操作

1 创建导入临时目录

这里定为hdfs://tmp/hive-import/<database name>

$ sudo -u hdfs dfs -mkdir -p /tmp/hive-import/cdp_data

2. 从Source端复制导出到HDFS的数据

这里用DistCp，该步只能在Destination端进行。并且需要用hftp连接Source端的hdfs文件系统。这是为了避免因Cluster版本不同产生的问题。

$ sudo -u hdfs hadoop distcp hftp://<source host>:50070/tmp/hive-export/cdp_data \hdfs://<destination host>:8020/tmp/hive-import/cdp_data

3. 生成导入数据脚本

$ sudo -u hdfs hdfs dfs -ls /tmp/hive-import/cdp_data/ | \awk '{print $8}' | awk -F '/' '{print $5}' | grep -v "^$"  > table.list

$ cat table.list  | \awk '{printf "import table %s from @/tmp/hive-import/cdp_data/%s@;\n",$1,$1}' | \sed "s/@/'/g" > import.hql

4. 执行导入数据脚本

$ sudo -u hdfs hive -e "use cdp_data; source import.hql"

wangzfox

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hive数据迁移

简介基于全表导出和全表导入。流程为Source Hive -> Source HDFS Cluster -> Destination HDFS Cluster -> Destination Hive（Source端）群集操作1. 创建导出临时目录这里定为hdfs://tmp/hive-export/假设这里导出的数据库名为
复制链接

扫一扫