数据容错机制:
1.复本冗余机制:比如HDFS的文件多副本机制,
优点:恢复效率,占用带宽较少,几乎不消耗cpu资源
缺点:磁盘利用率低,3个复本策略,利用率:33.3%
2.纠删码(Erasure code ,):用于数据恢复,而且可以提高集群磁盘利用率(原始数据+校验数据)(hadoop3.0底层适用,冷数据-指不怎么用的数据)
思想:通过引入数据校验块,使其和原始数据块编码产生关联关系
算法:Reed-Solomon Codes
过程:
编码过程;产生关联关系过程
解码过程:数据丢失恢复过程
n:原始,m:校验
详解:
编码过程:
解码过程: