日常记录:
hadoop distcp数据据同步:
注意事项:
1、为避免集群带宽被全部占用,进而影响其他线上服务,在做数据迁移时应该限制占用带宽;
2、为了避免失败了map影响整体任务的同步,最好忽略失败
性能测试:
命令:
hadoop distcp -p -i -m 20 -log dir -update -strategy uniformsize -delete -bandwidth 2048 -skipcrccheck -numListstatusThreads 40 -copybuffersize 8192B hdfs://nn1:8020/srcDir hdfs://nn2:8020/destDir
参数说明:
-p:保留文件权限
可选参数:r: replication number b: block size u: user g: group p: permission c: checksum-type a: ACL x: XAttr t: timestamp
-i:忽略失败
不忽略失败时,程序重试会导致已经同步的数据再次同步,并且可能导致失败的文件同步可能导致程序终止
-m:限制同步启动的map数,默认每个文件对应一个map,每台机器最多启动20个map
-update:如果目的文件的名称和大小与源文件不同,则覆盖;若目的文件大小和名称与源文件相同则跳过