HADOOP中的CRC数据校验文件

 

Hadoop系统为了保证数据的一致性,会对文件生成相应的校验文件(.crc文件),并在读写的时候进行校验,确保数据的准确性。在本地find -name *.crc -print 看

比如我们遇到的这个Case:

执行的命令:

hadoop jar dw-hadoop-2010_7_23.jar jobDriver -files tb_steps_url_path_dim.txt  multisteps_output 2011-01-25

出错日志的提示:

org.apache.hadoop.fs.ChecksumException: Checksum error: file:tb_steps_url_path_dim.txt at 0

 at org.apache.hadoop.fs.FSInputChecker.verifySum(FSInputChecker.java:277)

 at org.apache.hadoop.fs.FSInputChecker.readChecksumChunk(FSInputChecker.java:241)

 at org.apache.hadoop.fs.FSInputChecker.read1(FSInputChecker.java:189)

 at org.apache.hadoop.fs.FSInputChecker.read(FSInputChecker.java:158)

 at java.io.DataInputStream.read(DataInputStream.java:83)

 at org.apache.hadoop.io.IOUtils.copyBytes(IOUtils.java:49)

 at org.apache.hadoop.io.IOUtils.copyBytes(IOUtils.java:87)

 at org.apache.hadoop.fs.FileUtil.copy(FileUtil.java:209)

 at org.apache.hadoop.fs.FileUtil.copy(FileUtil.java:142)

 at org.apache.hadoop.mapred.JobClient.copyRemoteFiles(JobClient.java:565)

 at org.apache.hadoop.mapred.JobClient.configureCommandLineOptions(JobClient.java:627)

 at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:802)

 at org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:771)

 at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1290)

 at jobDriver.run(jobDriver.java:85)

 at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)

 at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:79)

 at jobDriver.main(jobDriver.java:124)

 at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)

 at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:39)

 at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)

 at java.lang.reflect.Method.invoke(Method.java:597)

错误原因:

启动任务的命令中包含一个参数“-files tb_steps_url_path_dim.txt”

Hadoop客户端需要将机器本地磁盘中的tb_steps_url_path_dim.txt文件上传到DFS中。

在上传的过程中,Hadoop将通过FSInputChecker判断需要上传的文件是否存在进行校验的crc文件,即.tb_steps_url_path_dim.txt.crc,如果存在crc文件,将会对其内容一致性进行校验,如果校验 失败,则停止上传该文件。最终导致整个MR任务无法执行。

crc文件来源

DFS命令:hadoop fs -getmerge srcDir destFile

这类命令在执行的时候,会将srcDir目录下的所有文件合并成一个文件,保存在destFile中,同时会在本地磁盘生成一个. destFile.crc的校验文件。

DFS命令:hadoop fs -get -crc src dest

这类命令在执行的时候,会将src文件,保存在dest中,同时会在本地磁盘生成一个. dest.crc的校验文件。

如何避免

在使用hadoop fs -getmerge srcDir destFile命令时,本地磁盘一定会(没有参数可以关闭)生成相应的.crc文件。

所以如果修改getmerge后所得文件的内容,则无法进行校验,那么再次上传到DFS时可采取以下2种策略进行规避:

1. 删除.crc文件

2. 将getmerge获取的文件修改后重新命名,如使用mv操作,再次上传到DFS中。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值