广州-唯品会-Java大数据开发工程师面试真题
在 spill 写入之前,会先进行二次排序,首先根据数据所属的 partition 进行排序,然后每个 partition 中的数据再按 key 来排序。大家都知道 namenode 与 secondary namenode 的关系,当他们要进行数据同步时叫做 checkpoint 时就用到了 fsimage 与 edit,fsimage 是保存最新的元数据的信息,当 fsimage 数据到一定的大小事会去生成一个新的文件来保存元数据的信息,这个新的文件就是 edit,edit 会回滚最新的数据。
复制链接