HDFS的副本机制---------快速恢复能力
副本机制:保证数据的容错性
因为datanode上的数据是会丢失的,存第一块的时候,又复制出一块存放在其他两个节点上,存放的相当于副本
假如说node1机器宕机了,其他的机器是有存放node1的block副本,即使node1宕机也不影响数据的完整性的
a.txt 在namenode上是这样记录的:block1上存放了node1、node2和node3的副本,第一台node1宕机了
不要紧,namenode会去另外某机器上去拷贝副本放在某台机器上
在默认情况下一个block有三个副本
hdfs-site.xml里有dfs.blocksize,规定了每个块是128M
<name>dfs.blocksize</name>
<value>134217728</value>
hdfs-site.xml里有dfs.replication,规定每个块的副本数量
<name>dfs.replication</name>
<value>3</value>
replication本身就有复制的意思,dfs.replication
3表示每一个副本数量是3个,存放3个副本的代价就是占用空间
通过占用的空间换取安全是稳妥的做法
namenode是用来存储元数据的,datanode数量有几个,每个机器上有几个副本,有几个block,namenode都清清楚楚