引言:在公司数据迁移时,对distcp这个命令尝试了n多次,总算对他的工作原理有点心得。
1、首先确保两个集群的mapreduce计算框架没问题
2、开通目标集群所有机器到源集群namenode节点的网络
3、版本差距不是很大时,用
sudo -u hdfs hadoop distcp -i hdfs://192.168.16.1:8020/bak/ship_historical_trace hdfs://172.172.160.101/ship/
4、在ambari在的节点上使用命令,只有该节点可以免密登录其他机器
5、文件拷贝的路径需要写namenode存在节点,因为只用它开启了rpc端口