Hadoop原理之checkpoint机制

最新推荐文章于 2024-05-15 23:55:47 发布

L姓数据工程师

最新推荐文章于 2024-05-15 23:55:47 发布

阅读量2.4k

点赞数 1

分类专栏： hadoop原理文章标签：大数据

本文链接：https://blog.csdn.net/weixin_42419342/article/details/108163557

版权

3 篇文章 0 订阅

订阅专栏

一、什么是checkpoint？

简单来说，若不使用HA时，hadoop的checkpoint机制就是主节点的元数据备份机制，通过Secondary Namenode，每隔一段时间将Name Node的元数据更新并备份，然后返回fsimage给Name Node，供其下次启动时读取

在这里插入图片描述

首先，有一个主节点Name Node（NN），同时还有一个Secondary NameNode（SNN），可将SNN看作NN的“秘书”，这个“秘书”默认每隔60分钟，都会通知NN滚动更新日志信息edits，以便后续的元数据备份操作

要知道，元数据是保存在内存当中的，这样就使得元数据很容易丢失，但是由于NN工作量已经很大，要管理众多DataNode，还要更新操作日志文件edits等，若同时还要将元数据信息序列化到本地磁盘中，这样是非常慢且耗费资源的，所以此时SNN就会开始其工作，代替NN完成元数据的保存工作

当集群启动时，NN和SNN都会启动，NN启动后会读取最新的fsimage文件，读到较新的元数据信息，同时还会读取最新的日志信息，根据日志信息的内容“回滚”上一次开机时的操作信息，这样即可保证当前的元数据信息是完整正确的

SNN会隔一段时间就去NN下载其fsimage文件和众多edits文件，下载到SNN的本机上，然后将fsimage反序列化到内存中，同时“回放”众多日志文件中的操作信息，更新补全元数据，元数据更新完毕后，SNN就会将该元数据对象序列化到本地磁盘中，然后再将该元数据对象发送给NN，供其下一次开机读取

上述内容就是简略的checkpoint机制，其实有许多参数是可以设置的，不过一般都是用默认值，例如NN中最多只会保留两份最新的fsimage文件，最多保留10000个最新的edits文件，最多保留1000000条操作记录等等

关注