前言
在现有HDFS处理FBR(全量块汇报)逻辑中,处理开销是比较高的,尤其当集群中有大量块的时候。对此,社区在HDFS-9260中提出了一种新的树型结构来优化这块的处理。它本质上是一种排序好的Set集合,名为FoldedTreeSet。
FoldedTreeSet的作用
社区在实现FoldedTreeSet的时候,主要考虑到下面几点优化方向:
- 提升NN的FBR处理过程。
- 提高NN,DN中块数据信息的内存使用率,实质是新的结构比原来链表式的GSet会使用到更少的内存。
- 新的结构将会更利于GC处理。
首先第一点,NN的FBR处理可以借助于FoldedTreeSet的排序结果,进行更高效的处理,而且这个排序在NN和DN上都是可以排序好的。在原先老的处理过程中,因为块是未排序好的,针对每个块,需要检查NN上是否有这些块,然后还要跟踪这些块,在链表中做标记,然后区分出哪些块是没有被DN汇报上来的,整个过程非常的复杂。另一方面排序好的,Block,Replica信息查询起来也会更快。
FoldedTreeSet根据字面意思,是一个“折叠”了的TreeSet,因为在FoldedTreeSet里,每个Node包含了多个实体项,而不是传统中的一个。
FoldedTreeSet带来的隐患
FoldedTreeSet的实质是一个红黑树的实现,