Hadoop HDFS 数据一致性

原创 2013年12月03日 15:42:43
HDFS 会对写入的所有数据计算校验和(checksum),并在读取数据时验证校验和。针对指定字节的数目计算校验和。字节数默认是512 字节,可以通过io.bytes.per.checksum属性设置。通过CRC-32编码后为4字节。

Datanode 在保存数据前负责验证checksum。client 会把数据和校验和一起发送到一个由多个datanode 组成的队列中,最后一个Datanode 负责验证checksum。如果验证失败,会抛出一个ChecksumException。客户端需要处理这种异常。

客户端从datanode读取数据时,也会验证checksum。每个Datanode 都保存了一个验证checksum的日志。每次客户端成功验证一个数据块后,都会告知datanode,datanode会更新日志。

每个datanode 也会在一个后台线程中运行一个DataBlockScanner,定期验证这个 datanode 上的所有数据块。

在用 hadoop fs get 命令读取文件时,可以用 -ignoreCrc 忽略验证。如果是通过FileSystem API 读取时,可以通过setVerifyChecksum(false),忽略验证。

Hadoop 中的 LocalFileSystem 会进行客户端的检验和,写文件时,会在目录下创建一个名为 .filename.crc 的隐藏文件,如果想禁止校验和功能,可以用RawLocalFileSystem 代替LocalFileSystem 。
Configuration conf = ...
FileSystem fs = new RawLocalFileSystem();
fs.initialize(null, conf);
或者直接设置fs.file.impl 属性为 org.apache.hadoop.fs.RawLocalFileSystem  这样会全局禁用checksum 

LocalFileSystem 内部使用了 ChecksumFileSystem 完成checksum工作。通过 ChecksumFileSystem  可以添加校验和功能。
FileSystem rawFs = ...
FileSystem checksummedFs = new ChecksumFileSystem(rawFs);



HDFS的一致性分析

转自: http://coderplay.iteye.com/blog/1067463 在分析HDFS的一致性之前, 我们先得解决HDFS客户端行为的几个问题。  1. 为什么HDFS不支持多...
  • Morecans
  • Morecans
  • 2016年05月16日 11:25
  • 1337

hdfs 数据一致性

转载地址:http://www.wubiaoblog.com/archives/984 HDFS以流式数据访问模式来存储文件,运行于大量硬件集群上。个人觉得,HDFS被设计成为支持AP,并具有最...
  • gyflyx
  • gyflyx
  • 2014年01月18日 07:56
  • 3144

hbase,hdfs 数据一致性

hbase 采用的是强一致性 N: 1   (数据备份的数目) W: 1 (数据写入几个节点返回成功) R: 1  (读取数据时需要读取的备份节点个数) W + R > N 但是hd...
  • gyflyx
  • gyflyx
  • 2014年01月18日 14:19
  • 3364

Kafka 0.11.0.0 是如何实现 Exactly-once 语义的

转自http://www.jianshu.com/p/5d889a67dcd3 Kafka 0.11.0.0 是如何实现 Exactly-once 语义的...
  • zhangjun5965
  • zhangjun5965
  • 2017年10月12日 18:25
  • 989

qemu-kvm部分流程/源代码分析

所有流程图: www.baidu.com/p/ithinkwalk           2013-03-27 23:23 上传 下载附件 (511.41 KB)  qemu-kvm虚...
  • sdulibh
  • sdulibh
  • 2016年07月06日 15:35
  • 767

Hadoop源码解析-作业执行流程-本地模式

执行一个作业有很多方法,这看两种方法: 1. JobClient.runJob(conf); //JobConf 2. job.waitForCompletion(true);//Job run...
  • sulliy
  • sulliy
  • 2011年12月02日 17:12
  • 2784

hadoop 读写过程的内部机制

转载http://www.cnblogs.com/beanmoon/archive/2012/12/17/2821548.html 读文件    读文件时内部工作机制参看下...
  • a1223031949
  • a1223031949
  • 2016年10月05日 23:58
  • 984

如何保证HDFS中的数据一致性?

Hadoop中有个重要的工具就是HDFS分布式文件系统,那么在这种分布式环境下的数据一致性是如何保证呢?...
  • liucan9035
  • liucan9035
  • 2017年06月26日 14:26
  • 657

hdfs一致性模型解析

文件系统的一致模型描述了对文件读写的数据可见性。HDFS为性能牺牲了一些POSIX请求,因此一些操作可能比想像的困难。 在创建一个文件之后,在文件系统的命名空间中是可见的,如下所示: 1....
  • qq_26803795
  • qq_26803795
  • 2017年03月22日 11:00
  • 271

Hadoop IO 特性详解(2)【文件校验】

(本文引用了microheart,ggjucheng的一些资料,在此感谢。charles觉得知识无价,开源共享无价) 这一次我们接着分析文件IO校验的相关代码,看看最底层是如何实现这种大数据集的文件校...
  • MrCharles
  • MrCharles
  • 2015年12月22日 10:49
  • 1249
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Hadoop HDFS 数据一致性
举报原因:
原因补充:

(最多只允许输入30个字)