hadoop distcp同步工具使用

日常记录:

hadoop distcp数据据同步:
    注意事项:
        1、为避免集群带宽被全部占用,进而影响其他线上服务,在做数据迁移时应该限制占用带宽;
        2、为了避免失败了map影响整体任务的同步,最好忽略失败
    性能测试:
        命令:
            hadoop distcp -p -i -m 20 -log dir -update -strategy uniformsize -delete -bandwidth 2048 -skipcrccheck -numListstatusThreads 40 -copybuffersize 8192B hdfs://nn1:8020/srcDir hdfs://nn2:8020/destDir
            参数说明:
                -p:保留文件权限
                    可选参数:r: replication number b: block size u: user g: group p: permission c: checksum-type a: ACL x: XAttr t: timestamp
                -i:忽略失败
                    不忽略失败时,程序重试会导致已经同步的数据再次同步,并且可能导致失败的文件同步可能导致程序终止
                -m:限制同步启动的map数,默认每个文件对应一个map,每台机器最多启动20个map
                -update:如果目的文件的名称和大小与源文件不同,则覆盖;若目的文件大小和名称与源文件相同则跳过

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值