最近刚刚学习了Hadoop,关于中间的内容我想来跟大家分享一下我的想法。
HDFS是分布式文件系统,主要由一个Namenode来管理,而下面有很多的Datanode。Namenode就像是一个登记处,任何数据的进出都要经过它的检索和登记,而且它还会分配任务给下面的Datanode。而且HDFS会有一个冗余的特点,冗余的意思就是一份数据进行多份存储。下面的图是我找到的存储数据的时候一个很好解释冗余备份的过程解释。而且特别值得注意的一点是,它的备份不是同时进行,而是一份一份传递,关于这个问题,我有一个疑惑为什么它不是同时并行备份呢?这样效率不是更好吗?