NameNode和SecondaryNameNode的关系

原创已于 2024-02-13 17:26:29 修改 · 310 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#大数据 #hadoop #分布式

于 2022-09-20 19:45:56 首次发布

本文介绍了Hadoop中元数据的存储方式，包括FsImage和Edit日志的作用及交互过程。详细阐述了NameNode和SecondaryNameNode的工作机制，并解释了DataNode如何确保数据的完整性。

问题引入

DataNode的元数据是储存在那里的？

首先我们假设数据是存放在磁盘中的，但是hadoop肯定是要频繁进行随机的访问，和处理客户端发过来的请求等等，如果存放在磁盘读取存放效率肯定极低，所以肯定不可能只存放在磁盘中的，这个时候我们想元数据储存在内存中，这样效率肯定就高了啊，没错如果储存在内存里，那么进行数据访问时肯定会比较快，但是如果这个时候不小心发生了断电，那么内存中的数据不就丢失了吗？整个数据肯定没办法正常工作了，所以产生在磁盘中备份元数据的FsImage。

但是如果是这样，内存更新元数据的同时还需要同步磁盘，这样其实效率依然不高，但如果发生意外那么数据会面临出错的风险，因此，引入Edits文件（只进行追加操作，效率很高）。每当元数据有更新或者添加元数据时，修改内存中的元数据并追加到Edits中。这样即使断电也就让edits文件和fslmage文件同步组合成元数据，这样就可以解决这个问题。

但是问题依旧严重因为如果我们一直向edits中写入数据，那么edits文件就会变得极其臃肿，如果一但断电，结合成元数据的时间会变得极其绵长，随着使用的增加越开越慢，这样肯定是不行的，那么我们就想到，我们把这份时间切开，比如如果数据达到1g，或者时间过去一个小时，我就执行一次更新，这样不就好了吗，没错这样就可以解决这个问题，但是我们把这个工作交给namenode去做的话，那么namenode的效率就会下降，为了解决这个问题SecondaryNameNode诞生了，专门用来处理合并fslmage和edits文件。