11.3 无用单元收集

夏驰和徐策

于 2024-02-18 00:51:56 发布

阅读量721

点赞数 24

分类专栏：程序猿之编译原理文章标签：编译原理

本文链接：https://blog.csdn.net/tang7mj/article/details/136143962

版权

程序猿之编译原理专栏收录该内容

60 篇文章 3 订阅

订阅专栏

11.3 无用单元收集

垃圾收集（Garbage Collection, GC）是自动内存管理的一个重要过程，它帮助程序自动回收不再使用的内存空间。在Java等高级语言中，垃圾收集机制免除了程序员直接管理内存的负担，减少了内存泄漏和其他相关错误的发生。

垃圾的定义

在程序的执行过程中，那些不会再被使用的数据单元被视为垃圾。这些数据单元占用的内存空间需要被回收，以便为新的数据分配空间。垃圾收集器负责识别这些无用的数据单元并回收其占用的内存。

垃圾收集的基本方法

标记和清扫

标记和清扫（Mark-and-Sweep）是一种基本的垃圾收集方法。它分为两个阶段：

标记阶段：从根集合（如全局变量、活动的局部变量等）出发，遍历所有可达的对象，将它们标记为活跃的。
清扫阶段：遍历堆内存，回收未被标记（即未被访问）的对象所占用的空间。

垃圾收集的挑战

碎片化

内存碎片化是垃圾收集过程中的一个主要问题，分为外部碎片化和内部碎片化。外部碎片化指存在许多小的空闲内存块，但没有足够大的连续空间分配给新的对象；内部碎片化指分配给对象的内存空间大于实际需求。碎片化问题可能导致内存利用率下降。

引用局部性

引用局部性问题发生在活跃对象和空闲内存块交织在一起时，可能导致当前活跃的对象分散在多个虚拟内存页中。这会影响到程序的缓存利用率和性能，因为操作系统需要频繁地在内存和磁盘之间交换数据。

解决策略

为了缓解碎片化和引用局部性问题，现代垃圾收集器采取了多种策略，包括：

分代收集：将对象按生命周期分代，分别管理，因为大多数对象生命周期短暂，通过只针对短生命周期的对象频繁收集，可以提高收集效率。
压缩：在清扫阶段，将活跃的对象压缩到堆的一端，减少碎片化。
并行和并发收集：利用多核处理器优势，同时或几乎同时进行垃圾收集，减少对程序执行的干扰。

结论

垃圾收集是现代编程语言自动内存管理的核心组成部分，尽管它引入了一定的运行时开销，但通过减少内存管理错误、提高开发效率和程序稳定性，这一开销是值得的。随着垃圾收集算法的不断进步和优化，其对程序性能的影响正在逐渐减小。

11.3.2 引用计数

引用计数是一种垃圾收集技术，通过跟踪指向每个对象的引用数量来管理内存。每个对象包含一个引用计数器，当有新的引用指向该对象时，计数器增加；当引用失效时，计数器减少。当对象的引用计数变为零，表示对象不再被使用，可以安全回收其占用的内存。

引用计数的实现

在引用计数系统中，编译器生成额外的代码来管理引用计数器的值。例如，将一个对象引用赋值给变量时，目标对象的引用计数增加，而之前变量引用的对象（如果有的话）的引用计数减少。若对象的引用计数达到零，则意味着该对象不再可达，可以将其内存回收。

引用计数的优点

即时回收：引用计数可以立即回收不再使用的对象，不需要等待垃圾收集周期。
预测性能：引用计数的性能相对稳定，不会因为堆空间的增大而明显下降。

引用计数的问题

循环引用

引用计数最大的问题是无法处理循环引用的情况。如果一组对象互相引用，形成闭环，即使它们已经不再被程序的其余部分所引用，它们的引用计数也不会降到零，导致无法回收。

性能开销

每次引用变化时都需要更新引用计数，这增加了运行时的开销。在引用频繁变动的程序中，这种开销可能变得显著。

引用计数的应用

尽管引用计数因为循环引用和性能开销的问题在许多系统中不再作为主要的垃圾收集策略，它仍然有其应用场景，特别是在需要即时回收和高响应性的环境中。此外，一些系统可能采用引用计数与其他垃圾收集技术结合的混合策略，以利用各自的优点。

结论

引用计数作为一种垃圾收集技术，简单直观，能够提供即时的内存回收。然而，由于循环引用和性能开销的问题，它通常不被单独使用作为主要的垃圾收集策略。在未来，通过算法改进或硬件支持，引用计数可能会在特定场景或作为混合垃圾收集策略的一部分发挥作用。

11.3.3 复制收集

复制收集是一种高效的垃圾收集方法，特别适用于管理小到中等大小的记录。它通过将活跃的对象从当前堆空间（称为from_space）复制到另一个堆空间（称为to_space），在过程中同时完成了垃圾收集和内存整理。

复制收集的工作流程

复制收集算法将堆分为两个相等的部分，只有其中一半（from_space）在任一时刻被用于内存分配。当这部分空间用尽时，算法暂停程序执行，遍历所有可达对象，并将它们复制到另一半堆空间（to_space）中。复制过程中，对象在新堆中紧凑排列，消除了内存碎片。复制完成后，from_space与to_space的角色交换，程序继续执行。

复制收集的优点

效率：对于存活对象数量较少的情况，复制收集可以非常高效地执行。
简化内存分配：由于对象紧凑排列，内存分配可以简化为指针的线性增加。
消除内存碎片：复制过程自然整理了内存，消除了碎片。
提高引用局部性：将活跃对象紧凑排列可改善缓存利用率，提升程序性能。

复制收集的挑战

空间开销：复制收集需要双倍的堆空间，增加了内存使用。
复制成本：对于大对象，复制操作可能会带来较高的性能成本。
局部性优化限制：若使用宽度优先搜索算法，可能不足以充分改善引用局部性。

实践应用

尽管复制收集方法面临空间和复制成本的挑战，它仍然是许多现代垃圾收集器的基础，特别是在实现分代收集（Generational GC）和渐进式收集（Incremental GC）策略时。通过将复制收集与其他技术结合，可以在减少其缺点的同时，利用其优点来提高垃圾收集的整体效率。

结论

复制收集方法通过在垃圾收集过程中复制和紧凑排列活跃对象，提供了一种有效的方式来管理内存和提高程序执行效率。虽然存在空间和复制成本的挑战，但通过适当的策略和优化，复制收集依然是现代垃圾收集算法中不可或缺的一部分。

11.3.4 分代收集

分代收集（Generational Garbage Collection）是一种基于对象生命周期特征的垃圾收集策略。这种策略利用了一个观察到的现象：大多数对象在创建后不久即变得不可达（即“死亡”），而长时间存活的对象往往会继续存活。

分代收集的工作原理

堆内存被划分为几个不同的代或区域，通常包括年轻代（Young Generation）、老年代（Old Generation）等。对象首先在年轻代中分配，年轻代的垃圾收集频率较高但每次收集的时间较短。经过几次垃圾收集后仍存活的对象，会被移动到老年代。老年代的垃圾收集频率较低，但可能需要更长时间来完成。

分代收集的优势

效率提高：通过频繁收集生命周期短的对象，减少了对长生命周期对象的收集频率，从而提高了整体垃圾收集的效率。
减少碎片：复制存活对象时，可以同时进行内存整理，减少内存碎片。
改善引用局部性：将活跃对象集中存储，有利于提高缓存命中率和程序执行效率。

分代收集的实现

根集确定

为了收集年轻代中的垃圾，需要确定根集。根集不仅包括全局变量和活动记录栈中的局部变量，还包括指向年轻代对象的老年代对象引用。为了快速确定这些引用，系统可能使用记忆集（Remembered Set）、卡表（Card Table）或页表（Page Table）等机制来记录老年代中哪些部分包含对年轻代对象的引用。