Hadoop3.0 引入了 Erasure Coding (EC, 纠删码技术),根据官网的介绍,使用EC技术可将额外的存储开销控制在不超过50%。
存储备份的开销是巨大的,HDFS默认的3x备份机制,使得整个集群将多出200%的存储空间的开销以及其他诸如网络带宽等的开销。然而,对于I/O相对较低的热数据集和cold数据集,在正常操作期间很少访问额外的块副本,仍然消耗与第一个副本相同的资源量。因此,一种自然的改进是使用EC来代替复制,它提供相同级别的容错,但存储空间要少得多。在典型的Erasure Coding (EC)设置中,存储开销不超过50%。EC文件的复制因子没有任何意义,始终为1,不能通过-setrep命令修改。