1、集群间数据拷贝
1. scp实现两个远程主机之间的文件复制
scp -r hello.txt root@hadoop103:/user/yyds/hello.txt // 推 push
scp -r root@hadoop103:/user/yyds/hello.txt hello.txt // 拉 pull
scp -r root@hadoop103:/user/yyds/hello.txt root@hadoop104:/user/yyds //是通过本地主机中转实现两个远程主机的文件复制;如果在两个远程主机之间ssh没有配置的情况下可以使用该方式。
采用distcp命令实现两个Hadoop集群之间的递归数据复制:
[yyds@hadoop102 hadoop-2.7.2]$ bin/hadoop distcp
hdfs://haoop102:9000/user/yyds/hello.txt hdfs://hadoop103:9000/user/yyds/hello.txt
2、小文件存档
1. HDFS存储小文件弊端
每个文件均按块存储,每个块的元数据存储在NameNode的内存中,因此HDFS存储小文件会非常低效。因为大量的小文件会耗尽NameNode中的大部分内存。
但注意