distcp跨集群拷贝文件失败Source and target differ in block-size. Use -pb to preserve block-sizes during copy.

Caused by: java.io.IOException: Checksum mismatch between hdfs://10.48.0.101/ucd-prod-vdp-usdp/user/hive/warehouse/ods.db/ods_dgs_dcs_tth_if_di/dt=20230716/000001_0 and hdfs://ucd-test-vdp-usdp/ucd-test-vdp-usdp/user/hive/warehouse/ods_prod.db/.distcp.tmp.attempt_1689578105872_1498_m_000017_2.1690257654635. Source and target differ in block-size.
Use -pb to preserve block-sizes during copy. You can choose file-level checksum validation via -Ddfs.checksum.combine.mode=COMPOSITE_CRC when block-sizes or filesystems are different. Or you can skip checksum-checks altogether with -skipcrccheck.

在这里插入图片描述

distcp命令是常用的大数据集群间的数据拷贝命令,有时候会因为不同集群间的block块大小不一致导致命令执行失败。报错如下

Source and target differ in block-size. Use -pb to preserve block-sizes during copy
1
原因分析
distcp默认拷贝文件时不记录原block大小导致在原文件block.size不是128M时校验失败,需要在distcp命令增加-pb参数。
1.HDFS在写的时候有设置块大小,默认128M,某些组件或者业务程序写入的文件可能不是128M,如8M。


<name>dfs.blocksize</name>
<value>134217728</value>

图1 某些组件或者业务程序写入的文件大小

2.distcp 从源集群读文件后写入新集群,默认是使用的MapReduce任务中的dfs.blocksize,默认128M。
3.在distcp写完文件后,会基于块的物理大小做校验,因为该文件在新旧集群中block.size不一致,因此拆分大小不一致,导致校验失败。
如以上文件,在旧集群是17.9/8MB = 3个block, 在新集群 17.9/128M = 1个block. 因此实际在磁盘的物理大小因分割而导致校验失败。

解决办法
distcp时,在地址前增加-pb参数。该参数作用为distcp时候保留block大小,确保新集群写入文件blocksize和老集群一致。
distcp时保留block大小

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值