GC 算法与种类
大纲:
n GC的概念
n GC算法
– 引用计数法
– 标记清除
– 标记压缩
– 复制算法
n 可触及性
n Stop-The-World
GC的概念:
n Garbage Collection 垃圾收集
n 1960年 List 使用了GC
n Java中,GC的对象是堆空间和永久区
GC算法:
引用计数法
n 老牌垃圾回收算法
n 通过引用计算来回收垃圾
n 使用者
– COM
– ActionScript3
– Python
引用计数器的实现:
n 引用计数器的实现很简单,对于一个对象A,只要有任何一个对象引用了A,则A的引用计数器就加1,当引用失效时,引用计数器就减1。只要对象A的引用计数器的值为0,则对象A就不可能再被使用。
引用计数法的问题
n 引用计数法的问题
– 引用和去引用伴随加法和减法,影响性能
– 很难处理循环引用(a引用了b,b又引用了a,两个对象之间相互引用,当要回收a时,无法回收,当要回收b时,无法回收)
垃圾回收器如何处理循环引用
垃圾回收是一门编程语言中必不可少的一部分,不论是手动释放内存的C和C++,还是自动回收垃圾的Java和C#等语言。对于Java这样的语言,一般的开发者不强求关心对象回收和内存释放,但是理解垃圾回收对开发工作还是大有裨益的。
在编程语言中,普遍存在着循环引用这样的问题,垃圾回收器是如何处理循环引用呢,常用的垃圾回收有引用计数和引用对象遍历两种实现,它们各自又是如何处理循环引用呢?本文讲以JVM中的GC为例逐一回答这些问题。
何为循环引用
如果有两个或者以上的对象,它们彼此引用,就会造成循环引用。如下面的例子
class Node { Node next; }
Node a = new Node(); Node b = new Node(); a.next = b; b.next = a; |
代码中,a对象引用了b对象,b对象也引用了a对象,这种情况下a对象和b对象就形成了循环引用。
引用计数GC处理
什么是引用计数
引用计数是一种垃圾回收的形式,每一个对象都会有一个计数来记录有多少指向它的引用。其引用计数会变换如下面的场景
当对象增加一个引用,比如赋值给变量,属性或者传入到一个方法,引用计数执行加1运算。
当对象减少一个引用,比如变量离开作用域,属性被赋值为另一个对象引用,属性所在的对象被回收或者之前传入参数的方法返回,引用计数执行减1操作。
当引用计数变为0,代表该对象不被引用,可以标记成垃圾进行回收。
如何处理
实际上单纯的基于引用计数实现的计数器无法处理循环引用带来的问题。
CPython的垃圾回收就是采用引用计数,采用引用计数的主垃圾回收器会清理垃圾,对于那些因为循环引用无法清理的对象,CPython会不时启动一个辅助的基于引用遍历的垃圾回收器来清理它们。
引用遍历GC处理
什么是引用对象遍历
垃圾回收器从被称为GC Roots根的点开始遍历遍历对象,凡是可以达到的点都会标记为存活,堆中不可到达的对象都会标记成垃圾,然后被清理掉。
GC Roots有哪些:
1) 类:由系统类加载器加载的类。这些类从不会被卸载,它们可以通过静态属性的方式持有对象的引用。注意,一般情况下由自定义的类加载器加载的类不能成为GC Roots
2) 线程:存活的线程
3) Java方法栈中的局部变量或者参数
4) JNI方法栈中的局部变量或者参数
5) JNI全局引用
6) 用做同步监控的对象
7) 被JVM持有的对象,这些对象由于特殊的目的不被GC回收。这些对象可能是系统的类加载器,一些重要的异常处理类,一些为处理异常预留的对象,以及一些正在执行类加载的自定义的类加载器。但是具体有哪些前面提到的对象依赖于具体的JVM实现。
如何处理
基于引用对象遍历的垃圾回收器可以处理循环引用,只要是涉及到的对象不能从GC Roots强引用可到达,垃圾回收器都会进行清理来释放内存。
总结
基于引用计数的垃圾回收器无法处理循环引用导致的内存泄露[z1] 问题,但是其在主流的JVM中很少,几乎所有的JVM都是采用引用对象遍历的方法,垃圾回收器都会处理循环引用潜在的问题。
一本书
· 深入理解Java虚拟机:JVM高级特性与最佳实践(第2版)
标记-清除 算法
什么是标记-清除:
n 标记-清除算法是现代垃圾回收算法的思想基础。标记-清除算法将垃圾回收分为两个阶段:标记阶段和清除阶段。一种可行的实现是,在标记阶段,首先通过根节点,标记所有从根节点开始的可达对象。因此,未被标记的对象就是未被引用的垃圾对象。然后,在清除阶段,清除所有未被标记的对象。
标记-压缩 算法
什么是标记-压缩:
n 标记-压缩算法适合用于存活对象较多的场合,如老年代。它在标记-清除算法的基础上做了一些优化。和标记-清除算法一样,标记-压缩算法也首先需要从根节点开始,对所有可达对象做一次标记。但之后,它并不简单的清理未标记的对象,而是将所有的存活对象压缩到内存的一端。之后,清理边界外所有的空间。
复制算法
什么是复制算法:
n 与标记-清除算法相比,复制算法是一种相对高效的回收方法
n 不适用于存活对象较多的场合 如老年代
n 将原有的内存空间分为两块,每次只使用其中一块,在垃圾回收时,将正在使用的内存中的存活对象复制到未使用的内存块中,之后,清除正在使用的内存块中的所有对象,交换两个内存的角色,完成垃圾回收
复制算法的问题和与标记清理思想整合:
n 复制算法的最大问题是:空间浪费 整合标记清理思想
-XX:+PrintGCDetails的输出
– Heap – def new generation total 13824K[z2] , used 11223K [0x27e80000, 0x28d80000, 0x28d80000[z3] ) – eden space 12288K, 91% used [0x27e80000, 0x28975f20, 0x28a80000) – from space 1536K, 0% used [0x28a80000, 0x28a80000, 0x28c00000) – to space 1536K, 0% used [0x28c00000, 0x28c00000, 0x28d80000)[z4] – tenured generation total 5120K, used 0K [0x28d80000, 0x29280000, 0x34680000) – the space 5120K, 0% used [0x28d80000, 0x28d80000, 0x28d80200, 0x29280000) – compacting perm gen total 12288K, used 142K [0x34680000, 0x35280000, 0x38680000) – the space 12288K, 1% used [0x34680000, 0x346a3a90, 0x346a3c00, 0x35280000) – ro space 10240K, 44% used [0x38680000, 0x38af73f0, 0x38af7400, 0x39080000) – rw space 12288K, 52% used [0x39080000, 0x396cdd28, 0x396cde00, 0x39c80000) |
分代思想
n 依据对象的存活周期进行分类,短命对象归为新生代,长命对象归为老年代[z5] 。
n 根据不同代的特点,选取合适的收集算法
– 少量对象存活(新生代),适合复制算法
– 大量对象存活(老年代),适合标记清理或者标记压缩,存活的对象多,复制的工作量太大,不适合。
GC算法总结整理
n 引用计数
– 没有被Java采用
n 标记-清除
老年代
n 标记-压缩
老年代
n 复制算法
– 新生代
n 所有的算法,需要能够识别一个垃圾对象,因此需要给出一个可触及性的定义。
可触及性
可触及的
n 可触及的
– 从根节点可以触及到这个对象
可复活的
n 可复活的
– 一旦所有引用被释放,就是可复活状态
– 因为在finalize()中可能复活该对象
System.gc().方法会调用自动调用对象重写的Object的finalize()方法。我们可以在finalize()方法体中复活引用为null的对象。 java提供finalize()方法,垃圾回收器准备释放内存的时候,会先调用finalize()。
(1).对象不一定会被回收。
(2).垃圾回收不是析构函数。
(3).垃圾回收只与内存有关。
(4).垃圾回收和finalize()都是靠不住的,只要JVM还没有快到耗尽内存的地步,它是不会浪费时间进行垃圾回收的。
Java 提供了被称为收尾(finalization )的机制。使用该机制你可以定义一些特殊的操作,这些操作在一个对象将要被垃圾回收程序释放时执行。要给一个类增加收尾(finalizer ),你只要定义finalize ( ) 方法即可。Java 回收该类的一个对象时,就会调用这个方法。在finalize ( )方法中,你要指定在一个对象被撤消前必须执行的操作。垃圾回收周期性地运行,检查对象不再被运行状态引用或间接地通过其他对象引用。就在对象被释放之前,Java 运行系统调用该对象的finalize( ) 方法。finalize()方法的通用格式如下:
protected void finalize( ){ // finalization code here,可以在这个方法里面复活对象(为对象添加引用)。 }
其中,关键字protected是防止在该类之外定义的代码访问finalize()标识符。该标识符和其他标识符将在第7章中解释。
理解finalize( ) 正好在垃圾回收以前被调用非常重要。例如当一个对象超出了它的作用域时,finalize( ) 并不被调用。这意味着你不可能知道何时——甚至是否——finalize( ) 被调用。因此,你的程序应该提供其他的方法来释放由对象使用的系统资源,而不能依靠finalize( ) 来完成程序的正常操作。 finalize()方法只会被调用一次,只在第一次要GC回收这个对象前调用。 |
不可触及的
n 不可触及的
– 在finalize()后,可能会进入不可触及状态
– 不可触及的对象不可能复活
– 可以回收
示例:
代码:
public static void main(String[] args) throws InterruptedException{ obj=new CanReliveObj(); obj=null; //可复活 System.gc(); Thread.sleep(1000); if(obj==null){ System.out.println("obj 是 null"); }else{ System.out.println("obj 可用"); } System.out.println("第二次gc"); obj=null; //不可复活 System.gc(); Thread.sleep(1000); if(obj==null){ System.out.println("obj 是 null"); }else{ System.out.println("obj 可用"); } } }
|
public class CanReliveObj { public static CanReliveObj obj; protected void finalize() throws Throwable { super.finalize(); System.out.println("CanReliveObj finalize called"); obj=this; } public String toString(){ return "I am CanReliveObj"; }
|
输出结果:
CanReliveObj finalize called
obj 可用
第二次gc
obj 是 null
经验总结:
n 经验:避免使用finalize(),操作不慎可能导致错误。
n 优先级低,何时被调用, 不确定
– 何时发生GC不确定
n 可以使用try-catch-finally来替代它
根
n 根
– 栈中引用的对象
– 方法区中静态成员或者常量引用的对象(全局对象)
– JNI方法栈中引用对象
Stop-The-World(全局暂停)
什么是Stop-The-World
n Stop-The-World
– Java中一种全局暂停的现象
– 全局停顿,所有Java代码停止,native代码可以执行,但不能和JVM交互
– 多半由于GC引起
• Dump(导出)线程
• 死锁检查
• 堆Dump(导出)
GC时为什么会有全局停顿?
n GC时为什么会有全局停顿?
– 类比在聚会时打扫房间,聚会时很乱,又有新的垃圾产生,房间永远打扫不干净,只有让大家停止活动了,才能将房间打扫干净。
危害
n 危害
– 长时间服务停止,没有响应
– 遇到HA系统[z6] ,可能引起主备切换,严重危害生产环境。
示例:
代码:
public static class PrintThread extends Thread{ public static final long starttime=System.currentTimeMillis(); public void run(){ try{ while(true){ long t=System.currentTimeMillis()-starttime; System.out.println("time:"+t); Thread.sleep(100);//每秒打印10条 } }catch(Exception e){
} } } |
public static class MyThread extends Thread{//工作线程,消耗内存 HashMap<Long,byte[]> map=new HashMap<Long,byte[]>(); public void run(){ try{ while(true){ if(map.size()*512/1024/1024>=450){// 大于450M时,清理内存 System.out.println(“=====准备清理=====:"+map.size()); map.clear(); }
for(int i=0;i<1024;i++){ map.put(System.nanoTime(), new byte[512]); } Thread.sleep(1); } }catch(Exception e){ e.printStackTrace(); } } } |
运行参数:
-Xmx512M -Xms512M -XX:+UseSerialGC -Xloggc:gc.log -XX:+PrintGCDetails -Xmn1m -XX:PretenureSizeThreshold=50 -XX:MaxTenuringThreshold=1
-XX:MaxTenuringThreshold(最高年龄阈值):多少次minor GC 后进入老年代,设定进入老年代的阀值。
-XX:PretenureSizeThreshold(预先大小阈值):对象超过这个大小(阀值) 直接进入老年代,这个参数的单位是Byte,其作用是当新对象申请的内存空间大于这个参数值的时候,直接扔到老年代。
输出结果:
n 预期,应该是每秒中有10条输出
// PrintThread线程的打印输出 time:2018 time:2121 time:2221 time:2325 time:2425 time:2527 time:2631 time:2731 time:2834 time:2935 time:3035 time:3153 time:3504 time:4218 ======before clean map=======:921765 time:4349 time:4450 time:4551 | //GC日志 3.292: [GC3.292: [DefNew: 959K->63K(960K), 0.0024260 secs] 523578K->523298K(524224K), 0.0024879 secs] [Times: user=0.02 sys=0.00, real=0.00 secs] 3.296: [GC3.296: [DefNew: 959K->959K(960K), 0.0000123 secs]3.296: [Tenured: 523235K->523263K(523264K), 0.2820915 secs] 524195K->523870K(524224K), [Perm : 147K->147K(12288K)], 0.2821730 secs] [Times: user=0.26 sys=0.00, real=0.28 secs] 3.579: [Full GC3.579: [Tenured: 523263K->523263K(523264K), 0.2846036 secs] 524159K->524042K(524224K), [Perm : 147K->147K(12288K)], 0.2846745 secs] [Times: user=0.28 sys=0.00, real=0.28 secs] 3.863: [Full GC3.863: [Tenured: 523263K->515818K(523264K), 0.4282780 secs] 524042K->515818K(524224K), [Perm : 147K->147K(12288K)], 0.4283353 secs] [Times: user=0.42 sys=0.00, real=0.43 secs] 4.293: [GC4.293: [DefNew: 896K->64K(960K), 0.0017584 secs] 516716K->516554K(524224K), 0.0018346 secs] [Times: user=0.00 sys=0.00, real=0.00 secs] ……省略若干….. 4.345: [GC4.345: [DefNew: 960K->960K(960K), 0.0000156 secs]4.345: [Tenured: 522929K->12436K(523264K), 0.0781624 secs] 523889K->12436K(524224K), [Perm : 147K->147K(12288K)], 0.0782611 secs] [Times: user=0.08 sys=0.00, real=0.08 secs]
|
[z1]内存泄漏,指的是有些内存无法被回收,那么这部分内存就无法被重复利用,那么,我们就认为,这块内存泄漏掉了。
[z2]12288K+ 1536K
[z3](0x28d80000-0x27e80000
)/1024/1024=15M
[z4]复制算法的两块内存区
[z5]Jvm每次GC之后会为存活的对象年龄加1,当年龄达到一个规定的值之后,这个对象还是没有被回收,就会把这个对象存到老年代。老年代的对象通常是系统使用频繁,依赖度高的对象。被回收的几率很小。
老年代中的对象分为2种:
1, 是新生代GC的时候一些大的对象存储空间不够,老年代作为内存担保,存到了老年代中。
2, 就是N次GC都没有回收掉,系统使用频繁,依赖度高的对象。
[z6]ha是High Available(高可用)缩写,是双机集群系统简称,指高可用性集群,是保证业务连续性的有效解决方案,一般有两个或两个以上的节点,且分为活动节点及备用节点。