GC 是什么
GC 是 Garbage Collection 的缩写,目的是可以寻找到内存中的垃圾,并将其进行回收,从而能让被再次分配使用。至于垃圾则是指已经不被任何程序所是有的内存空间。也就是说,GC 的目的有以下两条
- 定位垃圾
- 回收垃圾
GC 的一些基本概念
对象
对象是 GC 操作的基本单位,可以理解成分配的一块内存,对象包含两部分。
- Header 存储 GC 管理需要的信息,比如是否被标记
- Field 则是存储应用程序自身的数据
对象按照是否被使用分为两种,活动对象(有用的) / 非活动对象(无用的)
根
内存分配是有继承关系的,从一个节点引用到另一个节点,结构与树类似。那么树的根,就是这里的 根 的概念,也就是程序中内存引用关系的起点。那么在这棵树里面的就是 活动对象,其他的就是非活动对象(等待回收),根主要包括以下三部分
- 全局变量空间
- 调用栈
- 寄存器
GC 的衡量标准
GC 是一个执行内存管理的程序,从这两个角度出发,就能提取出以下四个维度的衡量标准
- 吞吐量
- 最大暂停时间
- 堆使用效率
- 内存访问局部性
吞吐量理解有些别扭,书中使用的计算方式是 HEAP_SIZE / GC_Run_Time
, 更方便的理解方式应该是 1 - GCTime/ApplicationTime
也就是 GC 所需要运行的整体时间越短越好,参考 INCREASE THROUGHPUT
GC 执行时会造成应用程序执行的暂停,这个对应用性能影响非常大,这也是为什么 Java 程序会尽可能的避免 FullGC(涉及分代 GC, 以后再说),所以这个暂停时间越短越好。
GC 是程序,程序就会涉及算法,数据结构,如果设计不好,就会自身占用大量内存,那么让应用使用的就会变少,这样就降低了内存使用效率(对使用效率)
以上三个标准,只能三取二,三者不可并存,和数据库的 CAP 原则类似。
至于第四个,则是内存排列的问题,GC 涉及对象迁移,就会影响访问的局部性,局部性不好,则可以认为对缓存不友好或者对系统预读机制不友好。
GC 的基础思路
GC 算法整体思路大致有以下三种
- Mark Sweep 标记-清除
- Reference Counting 引用计数
- Copying GC 复制
以上三种算法是目前 GC 算法中的基础,各有优缺点,其他算法则是对其的改进。改进方式有
- 自身算法层面的改进,例如 mark-sweep 中改进标记管理方式
- 针对场景将算法进行组合,例如分代GC(Java 中就是使用此种方式)
- 工程实现层面的改进,例如减少 GC 最大暂停时间的增量式GC(也就是间隔执行的GC)。
后面几篇笔记就是针对以上部分的展开。