JVM垃圾回收原理和算法

最新推荐文章于 2023-02-01 11:35:39 发布

汐梦聆海

最新推荐文章于 2023-02-01 11:35:39 发布

阅读量457

点赞数 2

分类专栏： java虚拟机文章标签： java 开发语言后端

本文链接：https://blog.csdn.net/jackzhang11/article/details/121644788

版权

java虚拟机专栏收录该内容

3 篇文章 0 订阅

订阅专栏

垃圾定位法

要进行垃圾回收，第一步肯定是要判断出哪些对象属于垃圾，因此需要利用垃圾定位法来判断出垃圾对象。定位垃圾的方法主要有两种：（1）引用计数法；（2）可达性分析法。

引用计数法：

通过给对象增加引用计数器，记录当前对象被引用的次数，当引用次数为0时就会标记为垃圾；
该方法在循环引用的情况下无法解决，会造成内存泄漏，如对象A引用对象B，对象B同时引用对象A（A->B, B->A）。

可达性分析法：

通过规定的一些GC根节点出发去查找，如果一个对象和根节点之间没有引用路径，或引用链不可达，则该对象会被标记为垃圾；
如果出现这种情况：Root->A->B, C->D，则C和D都为垃圾，因为与根节点Root不联通；
Root节点：本地方法栈和虚拟机栈引用的对象；常量和静态变量引用的对象。

垃圾回收算法

（1）标记-清除 算法

两阶段操作：第一阶段标记出来垃圾对象，第二阶段回收垃圾对象；
该方法会产生较多的内存碎片，对于一些较大的对象来说，如果下一次分配内存没有足够大的空间，则会提前触发GC；

（2）标记-整理（压缩） 算法

三阶段操作：第一阶段标记垃圾对象，第二阶段将存活的对象向一端移动，第三阶段释放对象端边界以外的内存；
该方法解决了内存碎片的问题，但是需要对对象进行移动，如果存活的对象很多，显然回收效率是不如第一种高的。

（3）复制算法

复制算法主要是为了中和内存碎片和内存效率的平衡；
复制算法模型将内存分为两块，每次只使用一块。在回收的时候，将存活的对象复制到未使用的内存空间上，将已使用的内存空间直接清除掉；
由于要分出部分区域进行复制，所以内存使用率不高；
JVM将年轻代分为Eden和两个Survive区（这里记为S1和S2，还有的地方计作from和to），以8:1:1的内存分配提高利用率。假如一开始将Eden区存活的对象复制到S1中，下一次则将S1+Eden存活的对象复制到S2中，再下一次将S2+Eden存活的对象复制到S1中。可见S1和S2反复交替，来回充当from和to。

垃圾收集器

垃圾收集器在进行垃圾回收时会STW(stop the word)，此时所有线程会在安全点阻塞直到回收完毕。新生代收集器大部分采用复制算法回收；老年代收集器使用标记-整理（或标记-清除）算法进行回收：

下图描述了几种常见的垃圾收集器的关系：
在这里插入图片描述
年轻代收集器：Serial，ParNew，Parallel Scavenge；

老年代收集器：Serial Old，Parallel Old，CMS；

一般是某一种年轻代收集器和老年代收集器配合使用。

而G1既作用于年轻代，也作用于老年代，且G1的出现是对前面所有的优化，所以G1是效率非常高的。

安全点 : 执行垃圾回收时防止在运行过程中导致的漏标错标的情况.所以垃圾收集时需要等所有线程都跑到安全点并中断时才会开始执行。

年轻代

（1）Serial

单线程垃圾收集器，垃圾的标记和删除都会STW（Stop The World，即让所有用户线程都执行到安全点处停下来，等待GC线程结束）。该收集器采用复制算法。
在这里插入图片描述
（2）ParNew

和Serial很像，只不过GC线程变为多线程的垃圾回收。
在这里插入图片描述
（3）Parallel Scanvenge（1.8默认）

吞吐量优先的多线程收集器，可以自适应动态调节虚拟机参数，这是和ParNew的重要区别。这里不展开说了。

说一下吞吐量：吞吐量表示的是应用程序线程占程序总用时的比例。例如：99/100的吞吐量表示100秒的程序执行时间中，应用程序线程执行了99秒，GC线程执行了1秒。

老年代

（1）Serial Old

单线程的老年代收集器，垃圾的标记以及删除都会触发STW。该收集器采用标记-整理算法。
在这里插入图片描述
（2）Parallel Old（1.8默认）

多线程的老年代收集器，垃圾的标记以及删除都会STW。使用标记-整理算法。

在这里插入图片描述
（3）CMS

CMS的全称是Concurrent Mark Sweep。从名字上看是基于标记-清除算法实现的。他的运作过程包括下面四个部分：

初始标记：这一步需要STW，但是初始标记只是标记一下GC Root能直接关联到的对象，速度很快；
并发标记：从GC Root的直接关联对象开始遍历整个对象图的过程，该过程耗时较长，但不需要暂停用户线程；
重新标记：为了修正并发标记期间，因用户程序继续运作而导致标记产生变动的那一部分对象的标记记录；
并发清除：清理删除掉标记阶段判断为已经死亡的对象，由于不需要移动存活对象，所以这个阶段也是可以与用户线程同时并发的。

CMS的三大缺点：

CMS收集器对处理器资源非常敏感：在并发阶段，虽然不会导致用户线程停顿，但却因为占用了一些线程而导致应用程序变慢，降低总吞吐量；
CMS无法处理浮动垃圾：在CMS的并发标记和并发清除阶段，用户线程还是正常运行的，程序还会伴随着新的垃圾对象的产生，但这一部分垃圾对象出现在标记过程结束以后，CMS无法在当次收集中处理掉他们，只能留到下一次收集的时候去清理；
由于CMS是基于标记-清除算法的，因此在收集结束后会产生大量的空间碎片，会给大对象的分配带来麻烦。往往会出现老年代还有很多空间，但就是无法找到足够大的连续空间来分配当前对象，从而不得不提前触发一次Full GC。

Garbage First（G1）

G1垃圾收集器是垃圾收集器技术发展史上一个里程碑式的成果，他有别于前面的将堆内存分为年轻代和老年代，而是采用基于Region的内存布局形式。

时间停顿模型

CMS的继承人希望设计出一款能够建立起“停顿时间模型”的收集器，意思就是能够指定在一个长度为M毫秒的时间片内，消耗在垃圾收集上的时间大概率不超过N秒的目标。

Mixed GC 思想

G1垃圾收集器出现之前，其他的收集器的收集目标范围要么是整个新生代（Minor GC），要么是整个老年代（Major GC），或者是整个堆（Full GC）。而G1跳出了这个桎梏，他可以面向堆内任何部分来组成回收集（Collection Set，CSet）进行回收。衡量的标准不再是某个对象属于哪个代，而是哪块内存中存放的垃圾最多，即回收收益最大，这就是G1收集器的 Mixed GC模式。

G1开创的基于Region的堆内存布局是实现Mixed GC的关键。把Java堆划分成多个大小相等的独立区域（Region），每个Region都可以根据需要，扮演Eden空间，Survivor空间，或者老年代空间。收集器能够根据不同角色的Region采用不同的策略去处理。可以参考一下下图：
在这里插入图片描述
上图中还有一H区，全称是Humongous，专门用来存放大对象。G1认为只要大小超过一个Region容量一半的对象即可判定为大对象。每个Region的大小可以通过参数设定，取值范围是1MB～32MB。如果某个对象超过了H区的容量，那么他将被保存在连续的H区之中。G1的大多数行为都是把H区当作老年代来看待。

优先回收收益最大的Region

虽然G1在概念上保留了新生代和老年代的概念，但新生代和老年代已经不是固定的了，他们都是一系列区域（不需要连续）的动态集合。G1收集器之所以能够建立可预测的停顿时间模型，就是因为他将Region作为单次回收的最小单元。每次收集到的内存空间都是Region大小的整数倍，这样可以有效的避免从整个Java堆中进行全区域的垃圾收集。更具体来说，是让G1收集器去跟踪各个Region里面的垃圾堆积的“价值”大小，价值表示的就是回收所获空间的大小，以及回收所需时间的期望值，然后在后台维护一个优先级列表，每次根据用户设定允许的收集停顿时间（默认200ms），优先回收价值收益最大的那些Region，这也就是Garbage First意义的由来。这种模式保障了G1收集器在有限时间内，尽可能提高收集效率。

G1要考虑的几个问题

（1）分成若干个Region以后，跨Region引用对象如何解决？

答：G1收集器上记忆集的应用要复杂很多，他的每个Region都维护有自己的记忆集，这些记忆集记录下别的Region指向自己的指针，并标记这些指针分别在哪些卡页的范围之内。

（2）并发标记阶段如何保证收集线程与用户线程互不干扰的运行？

答：首先要解决的事用户线程改变对象引用关系时，必须保证不能打破原来的对象图结构，导致标记结果出现错误。这里G1采用的是原始快照（SATB）算法来实现的；此外，垃圾收集对用户线程的影响还体现在回收过程中新创建对象的内存分配上，程序要继续运行肯定有新对象的创建，G1为每一个Region设计了两个名为TAMS（Top at Mask Start）的指针，把Region中一部分空间划分出来用于并发回收过程中新对象的分配。

（3）怎样建立起可靠的停顿预测模型？

答：G1收集器的停顿预测模型，是以衰减均值（Decaying Average）为理论进行实现的。在垃圾收集的过程中，G1收集器会记录每个Region的回收耗时，每个Region记忆集里的脏卡数量等各个可测量步骤花费的成本，并分析得出平均值、标准偏差、置信度等统计信息。Region的统计状态越新，越能决定其回收价值。然后通过这些信息预测现在开始回收的话，由哪些Region组成回收集才可以在不超过期望停顿时间的约束下获得最高的收益。

G1收集器的收集步骤

（1）初始标记：仅仅标记一下GC Root能够直接关联到的对象，并修改TAMS指针的值，让下一阶段用户线程并发运行时，能正确的在可用的Region中分配新的对象。该阶段需要STW，但耗时很短；

（2）并发标记：从GC Root开始对堆中的对象进行可达性分析，递归扫描整个堆中的对象图，找出要回收的对象。这阶段耗时较长，但是与用户程序并发执行。当对象图扫描完成以后，还要重新处理SATB记录下的在并发时有引用变动的对象；

（3）最终标记：对用户线程做另一个短暂的暂停，用于处理并发阶段结束后仍遗留下来的最后那少量的SATB记录；

（4）筛选回收：负责更新Region的统计数据，对各个Region的回收价值和成本进行排序，根据用户期望的停顿时间来制定回收计划，可以自由选择任意多个Region构成回收集，然后把决定回收的那一部分Region的存活对象复制到空Region中，在清理掉整个旧Region中的全部空间。这里的操作涉及到存活对象的移动，因此必须暂停用户线程，由多条GC线程并发执行。

从上面可以看出，G1除了并发标记外，其余操作都是要STW的。换而言之，G1并非纯粹追求低延迟，官方给他设定的目标就是在延迟可控的情况下尽可能高的吞吐量，所以才能承担起“全功能垃圾收集器”的重担与期望。

汐梦聆海

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
JVM垃圾回收原理和算法

垃圾定位法要进行垃圾回收，第一步肯定是要判断出哪些对象属于垃圾，因此需要利用垃圾定位法来判断出垃圾对象。定位垃圾的方法主要有两种：（1）引用计数法；（2）可达性分析法。引用计数法：通过给对象增加引用计数器，记录当前对象被引用的次数，当引用次数为0时就会标记为垃圾；该方法在循环引用的情况下无法解决，会造成内存泄漏，如对象A引用对象B，对象B同时引用对象A（A->B, B->A）。可达性分析法：通过规定的一些GC根节点出发去查找，如果一个对象和根节点之间没有引用路径，或引用链不可达
复制链接

扫一扫

专栏目录