hadoop集群数据迁移

hadoop distcp hdfs://namenode1/foo hdfs://namenode2/bar 
如果想在两个运行着不同版本HDFS的集群上利用distcp,使用hdfs协议是会失败的,因为RPC系统是不兼容的。想要弥补这种情况,可以使用基于HTTP的HFTP文件系统从源中进行读取。这个 作业必须运行在目标集群 上,使得HDFS RPC版本是兼容的。 
例如:hadoop distcp hftp://namenode1:50070/foo hdfs://namenode2/bar 

cdh如下异常: 
Caused by: java.io.IOException: Check-sum mismatch between hftp://ip:50070/flume/CC/normal/2014-06-20/FlumeData.1403222404996.snappy and hdfs://ip:8020/flume/.distcp.tmp.attempt_1404355744480_0004_m_000015_2. 
    at org.apache.hadoop.tools.mapred.RetriableFileCopyCommand.compareCheckSums(RetriableFileCopyCommand.java:190)
    at org.apache.hadoop.tools.mapred.RetriableFileCopyCommand.doCopy(RetriableFileCopyCommand.java:125) 
    at org.apache.hadoop.tools.mapred.RetriableFileCopyCommand.doExecute(RetriableFileCopyCommand.java:95)
    at org.apache.hadoop.tools.util.RetriableCommand.execute(RetriableCommand.java:87) 
    ... 11 more 
解决方法: 
hdfs增加如此参数 
<property> 
<name>dfs.checksum.type</name> 
<value>CRC32</value> 
</property> 

另外若目标集群若配置了安全机制,例如kerberos,distcp运行失败,暂时解决办法是禁用安全机制,先将数据迁移。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值