三色标记法
基本算法
要找出存活对象,根据可达性分析,从GC Roots开始进行遍历访问,可达的则为存活对象:

最终结果:A/D/E/F/G 可达
我们把遍历对象图过程中遇到的对象,按“是否访问过”这个条件标记成以下三种颜色:
白色:尚未访问过。
黑色:本对象已访问过,而且本对象 引用到 的其他对象 也全部访问过了。
灰色:本对象已访问过,但是本对象 引用到 的其他对象 尚未全部访问完。全部访问后,会转换为黑色。
三色标记遍历过程
假设现在有白、灰、黑三个集合(表示当前对象的颜色),其遍历访问过程为:
1.初始时,所有对象都在 【白色集合】中;
2.将GC Roots 直接引用到的对象 挪到 【灰色集合】中;
3.从灰色集合中获取对象:
将本对象 引用到的 其他对象 全部挪到 【灰色集合】中;
将本对象 挪到 【黑色集合】里面。
重复步骤3,直至【灰色集合】为空时结束。
结束后,仍在【白色集合】的对象即为GC Roots 不可达,可以进行回收。
注:如果标记结束后对象仍为白色,意味着已经“找不到”该对象在哪了,不可能会再被重新引用。





当Stop The World (以下简称 STW)时,对象间的引用 是不会发生变化的,可以轻松完成标记。
而当需要支持并发标记时,即标记期间应用线程还在继续跑,对象间的引用可能发生变化,多标和漏标的情况就有可能发生。
能不能在并发标记期间,将用户线程对引用关系的修改都保存起来?并发标记完成后,再将这些保存的修改过程,重新进行标记和调整?能,CMS 就是这么干的。它将并发标记期间引用发生变化的对象都暂存起来,并发标记完成后,再重新对这些暂存的对象重新进行一次标记。虽然重新标记的过程是需要 STW 的,但是重新标记的对象数量远远小于并发标记阶段的对象数量,因此停顿时间也是短暂且相对固定的,因此这个方法可行!
浮动垃圾(多标)
将原本应该被清除的对象,误标记为存活对象。后果是垃圾回收不彻底,不过影响不大,可以在下个周期被回收;
假设已经遍历到E(变为灰色了),此时应用执行了 objD.fieldE = null :

D > E 的引用断开
此刻之后,对象E/F/G是“应该”被回收的。然而因为E已经变为灰色了,其仍会被当作存活对象继续遍历下去。最终的结果是:这部分对象仍会被标记为存活,即本轮GC不会回收这部分内存。
这部分本应该回收 但是 没有回收到的内存,被称之为“浮动垃圾”。浮动垃圾并不会影响应用程序的正确性,只是需要等到下一轮垃圾回收中才被清除。
另外,针对并发标记开始后的新对象,通常的做法是直接全部当成黑色,本轮不会进行清除。这部分对象期间可能会变为垃圾,这也算是浮动垃圾的一部分。
对象消失(漏标)
将原本应该存活的对象,误标记为需要清理的对象。后果很严重,影响程序运行,是不可容忍的。
假设GC线程已经遍历到E(变为灰色了),此时应用线程先执行了:s
var G = objE.fieldG;
objE.fieldG = null; // 灰色E 断开引用 白色G
objD.fieldG = G; // 黑色D 引用 白色G

E > G 断开,D引用 G
此时切回GC线程继续跑,因为E已经没有对G的引用了,所以不会将G放到灰色集合;尽管因为D重新引用了G,但因为D已经是黑色了,不会再重新做遍历处理。
最终导致的结果是:G会一直停留在白色集合中,最后被当作垃圾进行清除。这直接影响到了应用程序的正确性,是不可接受的。
漏标必须要同时满足以下两个条件:
条件1:赋值器插入了一条或者多条从黑色对象到白色对象的新引用;
条件2:赋值器删除了全部从灰色对象到该白色对象的直接或间接引用。
这两个条件必须全部满足,才会出现对象消失的问题。那么我们只需要对上面条件进行破坏,破坏其中的任意一个,都可以防止对象消失问题的产生。这样就产生了两种解决方案:
解决漏标的两种解决方案
方案一:增量更新:Incremental Update
增量更新破坏的是第一个条件,当黑色对象插入新的指向白色对象的引用时,就将这个新加入的引用记录下来,待并发标记完成后,重新对这种新增的引用记录进行扫描;
可以简单理解为,当一个黑色对象增加了对白色对象的引用,那么这个黑色对象就被变灰
这样有一个缺点,就是会重新扫描这个黑色对象的所有引用,比较浪费时间
原始快照:Snapshot At The Beginning,SATB
原始快照破坏的是第二个条件,当灰色对象要删除指向白色对象的引用关系时,也是将这个记录下来,并发标记完成后,对该记录进行重新扫描,并将重新扫描到的白色对象直接标记为黑色,不用一层层遍历;
可以简单理解为,当一个灰色对象取消了对白色对象的引用,那么这个白色对象被变灰
这样做的缺点就是,这个白色对象有可能并没有黑色对象去引用它,但是它还是被变灰了,就会导致它和它的引用,本来应该被垃圾回收掉,但是此次GC存活了下来,就是所谓的浮动垃圾.其实这样是比较可以忍受的,只是让它多存活了一次GC而已,浪费一点点空间,但是会比增量更新更省时间.

写屏障
HotSpot 虚拟机中,不管是新增还是删除,这种记录的操作都是通过写屏障实现的。我们可以将写屏障理解为 JVM 对引用修改操作的一层 AOP,注意它与内存屏障是两个不同的东西。
增量更新与原始快照在 HotSpot 中都有实际应用,其中增量更新用在 CMS 中,原始快照用在了 G1、Shenandoah 等回收器中。
三色标记法与现代垃圾回收器
现代追踪式(可达性分析)的垃圾回收器几乎都借鉴了三色标记的算法思想,尽管实现的方式不尽相同:比如白色/黑色集合一般都不会出现(但是有其他体现颜色的地方)、灰色集合可以通过栈/队列/缓存日志等方式进行实现、遍历方式可以是广度/深度遍历等等。
对于读写屏障,以Java HotSpot VM为例,其并发标记时对漏标的处理方案如下:
CMS:写屏障 + 增量更新
G1:写屏障 + SATB(原始快照)
ZGC:读屏障
工程实现中,读写屏障还有其他功能,比如写屏障可以用于记录跨代/区引用的变化,读屏障可以用于支持移动对象的并发执行等。功能之外,还有性能的考虑,所以对于选择哪种,每款垃圾回收器都有自己的想法。
值得注意的是,CMS中使用的增量更新,在重新标记阶段,除了需要遍历 写屏障的记录,还需要重新扫描遍历GC Roots(当然标记过的无需再遍历了),这是由于CMS对于astore_x等指令不添加写屏障的原因,具体可参考这里。
为什么G1用SATB?CMS用增量更新?
增量更新:黑色对象新增一条指向白色对象的引用,那么就要进行深入扫描黑色对象及它的所有引用对象。
原始快照:灰色对象删除了一条指向白色对象的引用,但重新标记阶段会直接将对应的白色对象变为黑色对象,不会进行深度扫描,这样实际上就产生了浮动垃圾,好处是不需要像 CMS 那样 remark,再走一遍 root trace 这种相当耗时的流程。
我的理解:SATB相对增量更新效率会高(当然SATB会造成更多的浮动垃圾),因为不需要在重新标记阶段再次深度扫描被删除引用对象,而CMS对增量引用的根对象会做深度扫描,G1因为很多对象都位于不同的region,CMS就一块老年代区域,重新深度扫描对象的话G1的代价会比CMS高,所以G1选择SATB不深度扫描对象,只是简单标记,等到下一轮GC再深度扫描。
我的理解:原始快照只是简单把要可能消失的对象标记为黑色对象,这样有可能会产生浮动垃圾,而增量更新会把新增的引用关系都重新扫描一遍,在重新标记阶段不会产生浮动垃圾;但原始快照速度快,增量更新速度慢;
跨代引用&记忆集&卡表&卡页
跨代引用
所谓跨代引用就是老年代的对象引用了新生代的对象,或者新生代的对象引用了老年代的对象。那对于这种情况我们的GC在进行扫描的时候不可能直接把我们的整个堆都扫描完,那这样效率也太低了。所以这时候就需要开辟了一小块空间,维护这种引用,而不必让GC扫描整个堆区域。
记忆集
在新生代做GCRoots可达性扫描过程中可能会碰到跨代引用的对象,这种如果又去对老年代再去扫描效率太低了。为此,在新生代可以引入记录集(Remember Set)的数据结构(记录从非收集区到收集区的指针集合),避免把整个老年代加入GCRoots扫描范围。事实上并不只是新生代、 老年代之间才有跨代引用的问题, 所有涉及部分区域收集(Partial GC) 行为的垃圾收集器, 典型的如G1、 ZGC和Shenandoah收集器, 都会面临相同的问题。
垃圾收集场景中,收集器只需通过记忆集判断出某一块非收集区域是否存在指向收集区域的指针即可,无需了解跨代引用指针的全部细节。
对于记忆集来说,我们可以理解为他是一个抽象类,那么具体实现它的方法将由子类去完成。
卡表
卡表(Card Table)是一种对记忆集的具体实现。主要定义了记忆集的记录精度、与堆内存的映射关系等。卡表中的每一个元素都对应着一块特定大小的内存块,这个内存块我们称之为卡页(card page),
卡表是使用一个字节数组实现:CARD_TABLE[ ],每个元素对应着其标识的内存区域一块特定大小的内存块,称为“卡页”。hotSpot使用的卡页是2^9大小,即512字节

一个卡页中可包含多个对象,只要有一个对象的字段存在跨代指针,其对应的卡表的元素标识就变成1,表示该元素变脏,否则为0.
GC时,只要筛选本收集区的卡表中变脏的元素加入GCRoots里。
卡表的维护
当存在跨带引用的时候,它会将卡页标记为dirty。那么JVM对于卡页的维护也是通过写屏障的方式,这也就是为什么刚刚我们跟进写屏障操作到最后会发现它会对卡表进行一系列的操作。
Hotspot使用写屏障维护卡表状态。
参考
1.https://www.cnblogs.com/hongdada/p/14578950.html
2.https://www.freesion.com/article/62361107541/
本文介绍了垃圾回收中的三色标记算法,包括白色、灰色、黑色对象的状态变化,以及并发标记时可能出现的浮动垃圾和对象消失问题。CMS使用增量更新来处理漏标,而G1采用原始快照(SATB)策略,牺牲一部分效率以减少浮动垃圾。此外,还探讨了跨代引用、记忆集和卡表在垃圾回收中的作用,强调了写屏障在维护这些数据结构中的重要性。
6447

被折叠的 条评论
为什么被折叠?



