【第21期】观点:人工智能到底用 GPU?还是用 FPGA?

Hadoop HDFS 数据一致性

原创 2013年12月03日 15:42:43
HDFS 会对写入的所有数据计算校验和(checksum),并在读取数据时验证校验和。针对指定字节的数目计算校验和。字节数默认是512 字节,可以通过io.bytes.per.checksum属性设置。通过CRC-32编码后为4字节。

Datanode 在保存数据前负责验证checksum。client 会把数据和校验和一起发送到一个由多个datanode 组成的队列中,最后一个Datanode 负责验证checksum。如果验证失败,会抛出一个ChecksumException。客户端需要处理这种异常。

客户端从datanode读取数据时,也会验证checksum。每个Datanode 都保存了一个验证checksum的日志。每次客户端成功验证一个数据块后,都会告知datanode,datanode会更新日志。

每个datanode 也会在一个后台线程中运行一个DataBlockScanner,定期验证这个 datanode 上的所有数据块。

在用 hadoop fs get 命令读取文件时,可以用 -ignoreCrc 忽略验证。如果是通过FileSystem API 读取时,可以通过setVerifyChecksum(false),忽略验证。

Hadoop 中的 LocalFileSystem 会进行客户端的检验和,写文件时,会在目录下创建一个名为 .filename.crc 的隐藏文件,如果想禁止校验和功能,可以用RawLocalFileSystem 代替LocalFileSystem 。
Configuration conf = ...
FileSystem fs = new RawLocalFileSystem();
fs.initialize(null, conf);
或者直接设置fs.file.impl 属性为 org.apache.hadoop.fs.RawLocalFileSystem  这样会全局禁用checksum 

LocalFileSystem 内部使用了 ChecksumFileSystem 完成checksum工作。通过 ChecksumFileSystem  可以添加校验和功能。
FileSystem rawFs = ...
FileSystem checksummedFs = new ChecksumFileSystem(rawFs);



版权声明: 举报

相关文章推荐

十八款Hadoop工具帮你驯服大数据

Hadoop已经通过自身的蓬勃发展证明,它不仅仅是一套用于将工作内容传播到计算机群组当中的小型堆栈--不,这与它的潜能相比简直微不足道。这套核心的价值已经被广泛证实,目前大量项目如雨后春笋般围绕它建立...

基于hadoop MR+berkeley DB实现的十亿级数据的秒级部署和实时查询的解决方案

要解决的问题 1、有10亿级别的某视频网的注册用户和设备用户,需要T+1天的延时后,供前端实时查询任意uid或是设备id对应的用户画像数据。 2、分为计算周期+布署服务化+查询三部分,计算用时优化余地...

Hadoop (海量数据存储及计算) 基本概念

Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它...
  • ronmy
  • ronmy
  • 2017-03-05 13:06
  • 2241

Hadoop和大数据:60款顶级大数据开源工具

Hadoop和大数据:60款顶级大数据开源工具 说到处理大数据的工具,普通的开源解决方案(尤其是Apache Hadoop)堪称中流砥柱。弗雷斯特调研公司的分析师Mike Gualtieri最近...

hadoop ncdc数据下载方法

我在看《Hadoop权威指南》时,里面提供了NCDC天气数据样本,提供的下载链接是:点击打开链接,但是里面只提供了1901和1902这两年的数据,这未免也太少了点!完全称不上“BIG DATA”,于是...

Hadoop学习总结(1)——大数据以及Hadoop相关概念介绍

一、大数据的基本概念 1.1、什么是大数据   大数据指的就是要处理的数据是TB级别以上的数据。大数据是以TB级别起步的。在计算机当中,存放到硬盘上面的文件都会占用一定的存储空间,例如: ...

hadoop平台工作梳理

数据平台:                   一、  hadoop平台:Hbase,hive,storm,spark                         1) 部署hadoop到多台机器...
  • lili72
  • lili72
  • 2014-11-15 00:04
  • 2745

Hadoop之HDFS

摘要:HDFS是Hadoop的核心模块之一,围绕HDFS是什么、HDFS的设计思想和HDFS的体系结构三方面来介绍。 关键词:Hadoop HDFS 分布式存储系统

hdfs 数据一致性

转载地址:http://www.wubiaoblog.com/archives/984 HDFS以流式数据访问模式来存储文件,运行于大量硬件集群上。个人觉得,HDFS被设计成为支持AP,并具有最...
  • gyflyx
  • gyflyx
  • 2014-01-18 07:56
  • 2515

hadoop分析之一HDFS元数据解析

1、元数据(Metadata):维护HDFS文件系统中文件和目录的信息,分为内存元数据和元数据文件两种。NameNode维护整个元数据。 HDFS实现时,没有采用定期导出元数据的方法,而是采用元数据镜像文件(
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)