Hadoop——集群数据迁移（Hive Export/Import、Hadoop DistCp）

最新推荐文章于 2024-05-10 01:56:29 发布

Southwest-

最新推荐文章于 2024-05-10 01:56:29 发布

阅读量807

点赞数 1

分类专栏： Hadoop 文章标签： Hadoop HDFS Hive

本文链接：https://blog.csdn.net/lovetechlovelife/article/details/88914449

版权

Hadoop 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

集群版本

源集群: Hadoop-2.7.3、Hive-1.2.1(均为Apache开源版本)
目标集群: Hadoop-2.6.0、Hive-1.1.0(均为CDH-5.15.0版本)

迁移步骤

第一步：Hive export命令导出表到HDFS指定目录

hive -e "export table test.user_info to '/hive_export/test.user_info';

import和export命令的基本用法可以参考:
https://cwiki.apache.org/confluence/display/Hive/LanguageManual+ImportExport

默认配置参数情况下，如果表中单个文件大于32M，导出时会报错：

Failed with exception Cannot get DistCp constructor: org.apache.hadoop.tools.DistCp.<init>()
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.CopyTask

原因：由于export命令相当于拷贝hive表数据到指定目录，拷贝文件的默认最大值为hive.exec.
copyfile.maxsize=33554432(32M)，超过了这个阈值，会报上述错误。解决办法就是给参数hive.
exec.copyfile.maxsize设置一个适合你表文件大小的值，例如set hive.exec.copyfile.maxsize = 335544320(320M)。

第二步：传输数据到目标集群

hadoop distcp hftp://host:50070/hive_export/test.user_info/* hdfs://nameservice1/hive_import/test.user_info

distcp基本用法可参考：http://hadoop.apache.org/docs/current/hadoop-distcp/DistCp.html

注意：此命令要在目标集群的Namenode节点执行

如果你的源集群和目标集群版本不一致会报以下错误信息：

Caused by: java.io.IOException: Couldn't run retriable-command
Caused by: java.io.IOException: Check-sum mismatch between

解决方法：可以在distcp后面跟上 -Ddfs.checksum.type=CRC32 或 -pb

第三步：Hive import命令将数据导入到Hive表

hive -e "import table test.user_info from '/hive_import/test.user_info';"

可以给表重命名，也可以导出为外部表。可参考：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+ImportExport

第四步：修改hive表存储路径

只有在源集群和目标集群的NameNode别名不一致时才执行，否则Spark SQL无法访问Hive表。

hive -e "alter table test.user_info set serdeproperties ('path' = 'hdfs://nameservice1/user/hive/warehouse/test.db/user_info');“

Southwest-

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Hadoop——集群数据迁移（Hive Export/Import、Hadoop DistCp）

集群版本源集群: Hadoop-2.7.3、Hive-1.2.1(均为Apache开源版本)目标集群: Hadoop-2.6.0、Hive-1.1.0(均为CDH-5.15.0版本)迁移步骤第一步：Hive export命令导出表到HDFS指定目录hive -e "export table test.user_info to '/hive_export/test.user_info';...
复制链接

扫一扫