- 为什么要出现HDFS?
- 首先要说起hdfs的由来,hdfs由谷歌最先研发,其需求是单独一台计算机所能存储的空间是有限的,而随着计算机存储空间的加大,其价格是呈几何倍的增长,所以就有了hdfs的产生,hdfs架构在相对廉价的计算机上,以分布式的方式,这样想要扩大空间只要增加集群的数量就可以
为什么hdfs需要副本机制?
- 在上个问题的时候,我说过我们需要的是大量相对廉价的计算机,那么宕机就是一种必然事件,我们需要让数据避免丢失,就只有采取冗余数据存储,而具体的实现就是副本机制
这是副本机制的官网图解
地址:http://hadoop.apache.org/docs/r2.8.3/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html
- 三副本机制详解(三个以上的随机存储)
第一副本:如果上传节点是DN,则上传该节点;如果上传节点是NN,则随机选择DN
第二副本:放置在不同机架的DN上
第三副本:放置在与第二副本相同机架的不同DN上 - 副本机制的作用
- 极大程度上避免了宕机所造成的数据丢失(除非命不好)
- 可以在数据读取时进行数据校验