【JVM】_x_垃圾收集算法、相关概念、回收器

binxer

已于 2023-04-13 16:49:41 修改

阅读量141

点赞数

分类专栏： Java虚拟机文章标签： java 面试开发语言

于 2022-03-15 15:04:26 首次发布

本文链接：https://blog.csdn.net/qq_43653522/article/details/119061954

版权

Java虚拟机专栏收录该内容

6 篇文章 0 订阅

订阅专栏

JVM 垃圾收集

三个经典问题：

那些内存需要回收
什么时候回收
如何回收

垃圾是指在运行程序中没有任何指针指向的对象，这个对象就是需要回收的垃圾，如果不及时对内存中的垃圾进行清理，那么这些垃圾对象所占的内存空间会一直保留到应用程序结束，被保留的对象无法被其他对象使用，甚至会导致内存溢出。

为什么需要GC：

释放没用的对象，如果不进行垃圾回收，内存迟早会被消耗完
垃圾回收可以清理内存记录碎片，碎片整理将所有的对内存移动到堆的一端，以便将整理出来的内存分配给新的对象
随着应用程序所应付的业务越来越庞大、复杂、用户越来越多，没有GC就不能保证应用程序正常进行。

在这里插入图片描述

垃圾回收相关算法【针对堆】

在堆里存放着几乎所有的Java对象示例，在GC执行前，首先需要区分内存中那些是存活对象，那些是已经死亡的对象。只有被标记为已经死亡的对象，GC才会进行垃圾回收，这个阶段我们称为垃圾标记阶段（对象存活判断）。

在JVM中，当一个对象已经不在被任何存活对象继续引用时，就可以宣判已经死亡。

判断对象存活一般有两种方式：引用计数算法和可达性分析算法。

垃圾标记阶段 - 引用计数法

引用计数算法（Reference Counting）比较简单，对每个对象保存一个整型的引用计数器属性。用于记录对象被引用的情况。

举一个例子：
对于一个对象a，若任何一个对象引用了a，则将其引用计数器++；若引用失效，则将其引用计数器–；当引用计数器为0，即表明对象a不可能再被使用了，可进行回收

优点：
实现简单，垃圾对象便于辨识，判定效率高，回收没有延迟性。
缺点

需要设定单独字段存储引用计数器，增加内存开销。
每次使用需要更新引用计数器，增加了时间开销。
无法处理循环引用，这导致Java中并没有使用这种算法。

示例：循环引用

在这里插入图片描述

垃圾标记阶段 - 可达性分析算法

可达性分析也被称为，根搜索算法或跟踪性垃圾收集
相对于引用计数算法而言，可达性分析算法那不仅同样具备实现简单和执行高效等特点，更重要的是该算法可以有效的解决在引用计数算法中循环引用的问题，防止内存泄漏的发生。

所谓 GC Roots 根集合就是一组必须活跃的引用。
基本思路：
- 可达性分析算法是以根对象集合（GC Roots）为起点，按照从上至下的方式搜索被根对象集合所连接的目标对象是否可达
- 使用可达性分析算法后，内存中的存活对象都会被根对象集合直接或间接连接着，搜索所走过的路径称为引用链（Reference Chain）
- 如果目标对象没有任何引用链，则是不可达的，就意味着该对象已经死亡，可以标记为垃圾对象。
- 可达性分析算法中，只有能够被根对象集合直接或间接连接的对象才是存活对象。

GC Roots
在Java语言中，GC Root 包括以下几类元素：

虚拟机中引用的对象
比如：各个线程被调用的方法中使用到的参数、局部变量等。
本地方法栈内 JNI （通常说的本地方法）引用的对象
方法区中静态熟悉引用的对象
比如：Java类应用类型静态变量
方法区中常量引用的对象
比如：字符串常量池（String Table）里的引用
所有被同步锁synchronized持有的对象
JVM 内部的引用
比如：基本数据类型对应的Class对象，一些常驻的异常对象（如：NullPointerException、OutOfMemoryError），系统类加载器。
反应Java虚拟机内部情况的JMXBean、JVMTI中注册的回调、本地代码缓存等。
除了这些固定的GC Roots集合以外，根据用户所选用的垃圾收集器以及当前回收的内存区域不同，还可以有其他对象“临时性”地加入，共同构建完整GC Roots集合。比如：分代收集和局部回收（partial GC）
如果只针对Java堆中的某一块区域进行垃圾回收（比如：典型的只针对新生代），必须考虑到内存区域是虚拟机自己的实现细节，更不是孤立封闭的，这个区域的对象完全有可能被其他区域的对象所引用，这时候就需要一并将关联区域对象也加入GC Roots集合中去考虑，才能保证可达性分析的准确性。
小技巧：
由于GC Root 采用栈方式存放变量和指针，所以如果一个指针，它保存了堆内存里面的对象，但是自己又不存放在堆内存里面，那么它就是一个GC Root。

如果要使用可达性分析算法来判断内存是否可回收，那么分析工作必须在一个能保障一致性的快照中进行。这点不满足的话分析结果的准确性就无法保证。

这点也是导致GC进行时必须stop the world的一个重要原因，即使是是号称（几乎）不会发生停顿的 CMS 收集器中，枚举根节点时也是必须停顿的。

对象的 finalization 机制

Java 提供了对象终止（finalization）机制来允许开发人员提供对象销毁之前的自定义处理逻辑。 当垃圾回收器发现没有引用指向一个对象，即：回收此对象前，总会先调用对象的finalize()方法。finalize()方法允许在子类中被重写，用于对象被回收时进行资源释放。通常这个方法中进行一些资源释放和清理的工作，比如关闭文件、套接字和数据库连接等。
注意

永远不要主动调用某个对象的finalize()方法，应该交给垃圾回收机制调用。理由包括下面三点：

在 finalize()时可能会导致对象复活
finalize()方法的执行时间是没有保障的，它完全由GC线程决定，极端情况下，若不发生GC，则finalize()将完全没有机会执行
一个糟糕的finalize()会严重影响GC性能。

从功能上说，finalize() 方法与C++中的析构函数比较相似，但是Java的内存是自动管理的，所以本质上不能与析构函数相提并论。

由于finalize()方法的存在，虚拟机中对象一般处于三种可能的状态：

如果从所有根节点都无法访问到某个对象，说明对象已经不再使用了，一般来说，此对象需要被回收。但事实上，也并非是“非死不可”，他们存在一个“缓刑”的阶段。一个无法触及的对象可能在某一个条件下“复活”自己。若果是这种情况，那么对它进行回收就是不合理的，为此，定义虚拟机中的对象可能是三种状态。

可触及的：从根节点开始，可以抵达这个对象
可复活的：对象所有引用都被释放，但是对象可能在finalize()中复活
不可触及的：对象的finalize()被调用，并且没有复活，那么就会进入不可触及的状态。不可触及的对象不可能被复活，因为finalize()只会被调用一次。

只有在对象不可触及时才可被回收。

也就是说，判定一个对象objA是否可回收，至少要经历两次标记过程：

如果对象objA到 GC Roots 没有引用链，则进行第一次标记。
进行筛选，判断对象是否有必要执行finalize()方法
1. 如果对象objA没有重写finalize()方法，或者已经调用过finalize()方法，则虚拟机视为“没有必要执行”，objA被判定为不可触及的。
2. 如果objA重写了finalize()方法，且还未执行过，那么objA会插入到F-Queue队列中,由一个迅疾自动创建的、低优先级的Finalizer线程出发其finalize()方法执行。
3. finalize() 方法是对象逃离回收的最后机会，稍后GC会对F-Queue中的对象进行第二次标记，如果objA finalize()方法与任何一个引用链上的对象简历了关系，那么在第二次标记的时候，objA会被移出即将回收的集合，之后对象会再次会出现没有引用的情况。在这个情况下，finalize()方法不会再被调用，对象会直接变为不可触及状态，也就是说，一个对象的finalize方法只会被调用一次

清除阶段标记-清除

执行过程：
当堆内有效空间（available memory）被耗尽时，就会停止整个程序（也被称为stop the world ）,然后进行两项工作，第一项是标记，第二项是清除。

标记：collector从引用根节点开始遍历，标记所有被引用的对象。一般是在对象的Header中记录为可达对象。
清除：Collector对堆内存从头到尾进行线性遍历，若果发现某个对象在Header中没有标记为可达对象，则将其回收。

缺点：

效率不高
在进行GC的时候，需要停止整个应用程序，导致用户体验极差
这种方式清理出来的空闲空间是不连续的，产内存碎片。需要维护一个空闲列表

注意：何为清除
这里指的清除并不是真的置空，而是把需要清除的对象地址保存在空闲的地址列表里，下次有新对象需要加载时，判断垃圾的位置空间是否够，如果够，则存放。

清除阶段复制算法

核心思想：
将活着的内存空间分为两块，每次只使用其中一块，在垃圾回收时将正在使用的内存中存活对象复制到未使用的内存块中，之后清除正在使用的内存块中的对象，交换两个内存的角色，最后完成垃圾回收。

在这里插入图片描述
优点：

没有标记和清除过程，实现简单，运行高效
复制过去以后保证空间的连续性，不会出现“碎片”问题

缺点：

需要两倍空间
对于G1这种拆分为大量region的GC，复制而不是移动，意味着GC需要委会region之间对象的引用关系，不管是内存占用还是时间开销也不小

特别的：
复制算法在存活对象多的情况下，效率并不高。所以应用场景主要是针对新生代，一次通常可以回收70%-99%的空间（对象大多数都是朝生夕死）。回收性价比很高，所以商业用虚拟机都是用这种收集算法回收新生代。

在这里插入图片描述

清除阶段标记-压缩（或标记-整理、Mark-Compact）

背景：
复制算法的高效性是建立在存活对象少、垃圾对象多的前提下。这种情况在新生代经常发生，但是在老年代，更常见的情况是大部分对象都是存活对象。如果依然使用复制算法，由于存活对象较多，复制的成本也将很高。因此，基于老年代垃圾回收的特性，需要使用其他的算法。

标记-清除算法的确可以应用在老年代中，但是该算法不仅效率低下，而且执行完后还会产生内存碎片，所以JVM的设计者在此基础上进行了改进。标记-压缩（Mark-Compact）算法由此诞生。
在这里插入图片描述
执行过程：
第一阶段和标记清除算法一样，从根节点开始标记所有被引用对象
第二阶段将所有的存活对象压缩到内存的一端，按顺序排放。之后，清理边界外的所有空间。

标记-压缩算法的最终效果等同于标记-清除算法执行完成后再进行一次内存碎片整理，因此，也可以把它称为标记-清除-压缩（Mark-Sweep-Compact）算法
二者的本质差异在于标记-清除算法是一种非移动式的回收算法。标记-压缩是移动式的。是否移动回收后的存活对象是一项优缺点并存的风险决策。

可以看到，标记的存活对象将会被整理，按照内存地址依次排列，而未被标记的内存会被清理调。如此一来，当我们需要给新对象分配内存时，JVM只需要持有一个内存的其实地址即可，这比维护一个空闲列表显然少了许多开销。

优点：

消除了标记-整理算法当中，内存区域分散的缺点，我们需要给新对象分配内存时，JVM只需要持有一个内存的其实地址即可。
消除了复制算法当中，内存减半的高额代价。

缺点：

从效率上来说，标记-整理算法要低于复制算法。
移动对象的同时，如果对象被其他对象引用，还需要调整引用地址。
移动过程总，需要暂停（STW）

小结

在这里插入图片描述

分代收集算法

由于不同对象的生命周期是不一样的，因此，不同生命周期的对象可以采用不同的收集方式，以便提高回收效率。一般是把Java堆分为新生代和老年代，这样就可以根据各个代的特点使用不同的回收算法，以提高垃圾回收的效率。

目前几乎所有GC都是采用分代收集（Generational Collecting）算法执行垃圾回收的。在HotSpot 中，基于分代的概念，GC所使用的内存回收算法必须结合年轻代和老年代各自的特点。

年轻代（YoungGen）
年轻代特点：区域相对老年代较小，对象生命周期短，存活率低，回收频繁。
这种情况复制算法的回收整理，速度是最快的。复制算法的效率只和当前存活对象大小有关，因此很适用于年轻代的回收。而复制算法内存利用率不高的问题，通过hotspot中的两个survivor的设计得到缓解。
老年代（Tenured Gen）
老年代特点：区域较大，对象生命周期长，存活率高，回收不及年轻代频繁。
这种情况存在大量存活率高的对象，复制算法明显变得不合适。一般是由标记-清除或者是标记-清除与标记-整理的混合实现。

Mark 阶段的开销与存活对象的数量成正比
Sweep阶段的开销与所管理的区域大小成正相关
Compact阶段的开销与存活对象的数据成正比

以HotSpot中的CMS回收器为例，CMS是基于Mark-Sweep实现的，对于对象的回收效率很高。而对于碎片问题，CMS采用基于Mark-Compact算法的Serial Old回收器作为补偿措施：当内存回收不佳（碎片导致的Concurrent Mode Faliure时），将采用Serial Old执行Full GC以达到对老年代内存的整理。

增量收集算法、分区算法

增量收集

上述现有的算法，在垃圾回收的过程中都会处于一种Stop the World的状态，在此状态下，所有程序的线程都会被挂起，暂停一切工作等待垃圾回收完成。若果垃圾回收时间过程，应用程序会挂起很久，将影响用户体验或系统稳定。为了解决这个问题，即对实时立即收集算法的研究直接导致了增量收集（Incremental Collectiong）算法。

基本思想：
如果一次性将所有垃圾进行处理，需要造成系统长时间的停顿，那么就可以让垃圾收集线程和应用程序线程交替执行。每次，俩级收集线程只收集一小片区域的内存空间，接着切换到应用程序线程。依次反复，直到垃圾收集完成。

总的来说，增量收集算法的基础仍是标记-清除和复制算法。增量收集通过对线程间冲突的妥善处理，允许垃圾收集线程以分阶段的方式完成标记、清理或复制的工作。

缺点：
使用这种方式，由于在垃圾回收过程中，间断性地执行了应用程序代码，所以能减少系统的停顿时间。但是，业务线程切换和上下文转化的消耗，会使得垃圾回收的总成本上升，造成系统吞吐量的下降。

分区算法

一般来说，在相同条件下，堆空间越大，一次GC时所需要的时间就越长，有关GC产生的停顿也越长。为了更好地控制GC产生停顿的时间，将一块大的内存分割成多个小块，根据目标的停顿时间，每次合理地回收若干个小区间，而不是整个堆空间，从而减少一次GC所产生的停顿。

分代算法将按照对象的生命周期长短划分成两个部分，分区算法将整个堆空间划分成连续的不同小区间region。

每一个小区间都独立使用，独立回收。这种算法的好处是可以控制一次回收多少个小区间。
在这里插入图片描述

垃圾回收相关概念

STW

Stop the world 简称 STW，指的是GC时间发生过程中，会产生应用程序的停顿。停顿产生时整个应用程序线程都会被暂停，没有任何响应，这个停顿称为 STW。

可达性算法中枚举根节点（GC Roots）会导致所有Java执行线程停顿。

分析工作必须在一个能确保一致性的快照中进行
一致性分析指整个分析期间整个执行系统看起来被冻结在某个时间点上
若果分析过程中对象的引用还在不断变化，则分析结果的准确性无法保证

被STW中断的线程，会在GC完成后恢复。

垃圾回收的并发与并行

并发与并行，在讨论收集器的上下文语境中，可以解释如下：

并行（Parallel）指多条垃圾收集线程并行工作，但此时用户线程仍处于等待状态。
串行（Serial）
相较于并行的概念，单线程执行。
如果内存不够，则程序暂停，启动JVM垃圾回收器进行回收，回收完再启动。
并发（Concurrent）
指用户线程与垃圾收集线程同时执行（不一定是并行，可能会交替执行），垃圾收集不会停顿用户程序的执行。

安全点&安全区域

安全点：

程序执行时，并非在所有地方都能停顿下来开始GC，只有特定的位置才能停下来，这些位置被称为安全点（SafePoint）

SafePoint的选择很重要，如果太少会导致GC等待时间过程，如果太频繁会导致运行时的性能问题。大部分指令的执行时间都非常短暂，通常以“是否具有让程序长时间停止的特征”为标准。如：选择一些执行时间长的指令作为SafePoint，如方法调用，循环跳转和异常跳转等。

如何在GC发生时，检查所有线程是都跑到最近的安全点停顿下来呢？

抢占式中断（目前已经不被使用了）
首先中断所有线程。如果还有线程不在安全点，就恢复线程，让线程跑到安全点。
主动式中断：
设置一个中断标志，各个线程运行到SafePoint的时候主动轮询这个标志，如果中断标志为真，则将自己进行中断挂起。

安全区域：

安全区域是指在一段代码片段中，对象的引用关系不会发生变化，在这个区域中的任何位置开始GC都是安全的。我们也可以把SafeRegion。看做是被扩展的SafePoint

实际执行时：

当线程运行到Safe Region的代码时，首先标识已经进入了Safe Region，如果这段时间内发生了GC。JVM会忽略标识为SafeRegion状态的进程。
当线程即将离开Safe Region时，会检查JVM是否已经完成GC，如果完成，则继续运行，否则线程必须等待指导收到可以安全离开Safe Region的信号为止。

引用

在JDK1.2之后，Java对引用的概念进行了扩充，分为强引用（Strong Reference）、软引用（Soft Reference）、弱引用（Weak Reference）和虚引用（Phantom Reference）4种，强度依次减弱。

强引用（Strong Reference）：最传统的“引用”定义，是指程序代码之中普遍存在的引用赋值，类似Object obj = new Object()这种关系。无论任何情况下，只要强引用关系还在，垃圾收集器就永远不会回收掉被引用的对象。
软引用（Soft Reference）：在系统将要发生内存溢出之前，将会把这些对象列入回收范围之中进行二次回收。如果这次回收还没有足够的内存，才会OOM。
弱引用（Weak Reference）：被弱引用关联的对象只能生存到下一次垃圾收集前。当垃圾收集器工作时，无论内存空间是否足够，都会回收掉被弱引用关联的对象。
虚引用（Phantom Reference）：一个对象是否有虚引用的存在，完全不影响其生存时间，也无法通过虚引用获得一个对象的实例。为一个对象设置虚引用关联的唯一目的就是在对象被回收时收到一个系统通知。

强引用（不回收）

在Java程序中，最常见的引用类型是强引用，也就是我们最常见的普通对象引用，也是默认的引用类型。
强引用是可触及的，垃圾收集器永远不会回收掉被引用的对象。
对于一个普通的对象，如果没有其他的引用关系，只要超过了引用的作用域或者显式地将相应（强）引用赋值为null，就是可以当做垃圾被收集了，当然，具体回收时机还是要看垃圾收集的策略。
强引用是造成Java内存泄漏的主要原因之一。

强引用有以下特点：

强引用可以直接访问目标对象
强引用所指向的对象在任何时候都不会被系统回收，虚拟机宁愿抛出OOM也不会回收强引用所指向的读写。
强引用可能会导致内存泄露

软引用（内存不足即回收）
软引用是用来描述一些还有用，但非必要模型。**只要被软引用关联着的对象，在系统将要发生内存溢出异常之前，会把这些对象列仅回收范围之中进行第二次回收，**如果这次回收还没有足够的内存，才会抛出内存溢出异常。

软引用通常用来实现内存敏感的缓存。比如：高速缓存就有用到软引用，如果还有空闲内存，就可以暂时保留缓存，当内存不足时清理掉，这样就保证了使用缓存的同时，不会耗尽内存。

垃圾回收器在某个时刻决定回收软引用对象时候，会清理软引用，并可选地把引用存到一个引用队列（Reference Queue）。

类似弱引用，只不过Java虚拟机会尽量让软引用存活时间长一点，迫不得已才清理。

弱引用（发现即回收）

弱引用也是用来描述非必须对象，弱引用关联的对象只能生存到下一次垃圾收集发生为止。在系统GC时，只要发现弱引用，不管系统堆空间使用是否充足，都会回收掉只被弱引用关联的对象。
弱引用和软引用一样，在构造弱引用时，也可以指定一个引用队列，当弱引用对象被回收时，就会加入指定的引用队列，通过这个队列可以跟踪对象的回收情况。

软引用、弱引用都非常适合来保存那些可有可无的缓存数据如果这么做，当系统内存不足时，这些缓存数据会被回收，不会导致内存溢出。而当内存资源充足时，这些缓存又可以存在相当长的时间，从而起到加速系统的作用。

软引用和弱引用的不同在于，当GC在进行回收时，需要通过算法检查是否回收软引用对象，而对于弱引用对象，GC总是进行回收。弱引用对象更容易，更快被GC回收。

虚引用（phantom Reference）

是所有引用类型中最弱的一个，一个对象是否有虚引用，完全不决定对象的生命周期，如果一个对象仅持有虚引用，那么它和没有引用几乎是完全一样的，随时都可能被垃圾回收器回收。
他不能单独使用，也无法通过虚引用获得被引用的对象。当试图通过虚引用的get()方法获得对象时，总为null
为一个对象设置虚引用关联的唯一目的在于跟踪来及回收过程。比如能在这个对象被回收时获得一个通知。

虚引用必须和引用队列一起使用，虚引用在创建时必须提供一个引用队列作为参数。当垃圾回收器准备回收一个对象时，如果发现它还有虚引用，就会在回收对象后，将这个虚引用加入引用队列，以通知应用程序对象的回收情况。
虚引用可以跟踪对象的回收时间，因此也可以将一些资源释放操作放置在虚引用中执行和记录。

终结器引用（Final ）

它用于实现对象的finalize()方法，也可以成为终结器引用。

无需手动编码，其内部配合引用队列使用。

在GC时，终结器引用入队。由Finalizer线程通过终结器引用找到被引用对象并调用它的finalize()方法，第二次GC时才能回收被引用对象。

binxer

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【JVM】_x_垃圾收集算法、相关概念、回收器

JVM 垃圾收集三个经典问题：那些内存需要回收什么时候回收如何回收垃圾是指在运行程序中没有任何指针指向的对象，这个对象就是需要回收的垃圾，如果不及时对内存中的垃圾进行清理，那么这些垃圾对象所占的内存空间会一直保留到应用程序结束，被保留的对象无法被其他对象使用，甚至会导致内存溢出。为什么需要GC：释放没用的对象，如果不进行垃圾回收，内存迟早会被消耗完垃圾回收可以清理内存记录碎片，碎片整理将所有的对内存移动到堆的一端，以便将整理出来的内存分配给新的对象随着应用程序所应付的业务越来越庞大、
复制链接

扫一扫