了解Hadoop输入输出系统

与任何I/O子系统不同,Hadoop还带有一组原语。这些原始的考虑因素虽然本质上是通用的,但与Hadoop IO系统一起也具有一些特殊的含义。Hadoop处理数TB的数据集;对这些原语的特殊考虑将使你了解Hadoop如何处理数据输入和输出。本文快速浏览了这些原语,以提供有关Hadoop输入输出系统的观点。

本文来自国内专业IT教育学院【优锐课】。Java学习资料交流qq群:907135806,在接下来的学习如果过程中有任何疑问,欢迎进群探讨。

数据的完整性

数据完整性意味着数据在其存储,处理和检索操作中应保持准确和一致。为了确保在持久性和处理过程中不会丢失或破坏任何数据,Hadoop维护了严格的数据完整性约束。每次读/写操作都在磁盘中进行,因此通过网络更容易出错。而且,Hadoop处理的数据量只会加剧这种情况。检测损坏数据的通常方法是通过校验和。当数据首次进入系统并在检索过程中通过通道发送时,将计算校验和。检索端再次计算校验和并与接收到的校验和匹配。如果完全匹配,则认为数据无错误,否则包含错误。但是问题是-如果发送的校验和本身已损坏怎么办?这是极不可能的,因为这是一个很小的数据,但并非不可否认。使用正确的硬件(例如ECC存储器)可以缓解这种情况。

这仅仅是检测。因此,为了纠正错误,使用了另一种称为CRC(循环冗余校验)的技术。

Hadoop更进一步,并为每512(默认)字节的数据创建一个不同的校验和。由于CRC-32仅4个字节,因此存储开销不是问题。进入系统的所有数据均由数据节点验证,然后再转发以进行存储或进一步处理。通过校验和验证发送到datanode管道的数据,并使用ChecksumException将发现的任何损坏立即通知给客户端。从datan

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值