Garbage collection(GC)
Python中的垃圾回收机制采用的是引用计数为主,分代回收和标记-清除为辅的策略
1. 引用计数(Reference Counting)
Python中每个东西都是对象,对象的核心是一个结构体PyObject
:
typedef struct _object {
Py_ssize_t ob_refcnt; # 引用计数值
struct PyTypeObject *ob_type;
} PyObject;
PyObject
是每个对象必有的内容,其中ob_refcnt
就是做为引用计数。
引用计数的原理:每个对象维护一个ob_refcnt
,用来记录当前对象被引用的次数,即有多少引用指向了这个对象。当一个对象有新的引用时,它的ob_refcnt
就会增加,当引用它的对象被删除,它的ob_refcnt
就会减少。当引用计数为0时,该对象生命就结束了。
1、导致引⽤计数+1
的情况:
1. 对象被创建,例如a=11
2. 对象被引⽤,例如b=a
3. 对象被作为参数,传⼊到⼀个函数中,例如fun(a)
4. 对象作为⼀个元素,存储在容器中,例如list1=[a,a]
2、导致引⽤计数-1
的情况:
1. 对象的别名被显式销毁,例如del a
2. 对象的别名被赋予新的对象,例如a=22
3. ⼀个对象离开它的作⽤域,例如f函数执⾏完毕时,func函数中的局部变量(全局变量不会)
4. 对象所在的容器被销毁,或从容器中删除对象
3、查看⼀个对象的引⽤计数:
import sys
a = "hello python"
sys.getrefcount(a)
可以查看a
对象的引⽤计数,但是⽐正常计数⼤1,因为调⽤函数的时候传⼊ a
,这会让a
的引⽤计数+1
。
引⽤计数机制的优点:
- 简单
- 实时性:⼀旦没有引⽤,内存就直接释放了。不⽤像其他机制等到特定 时机。实时性还带来⼀个好处:处理回收内存的时间分摊到了平时。
引⽤计数机制的缺点:
- 维护引⽤计数消耗资源
- 循环引⽤
l1 = [11,22]
l2 = [33,44]
l1.append(l2)
l2.append(l1)
l1
与l2
相互引⽤,这就造成了l1
与l2
的引⽤计数始终是大于0,导致无法使用引用计数的方法处理垃圾,所占⽤的内存永远⽆法被回收,因此Python必须引入的新的垃圾回收机制。(标记-清除和分代收集)
2. 标记-清除(Mark-Sweep)
标记清除(Mark—Sweep)算法是一种基于追踪回收(tracing GC)技术实现的垃圾回收算法。它分为两个阶段:第一阶段是标记阶段,GC会把所有的活动对象
打上标记,第二阶段是把那些没有标记的非活动对象
进行回收。那么GC又是如何判断哪些是活动对象哪些是非活动对象的呢?
对象之间通过引用(指针)连在一起,构成一个有向图,对象构成这个有向图的节点,而引用关系构成这个有向图的边。从根对象(root object)出发,沿着有向边遍历对象,可达的(reachable)对象标记为活动对象,不可达的对象就是要被清除的非活动对象。根对象就是全局变量、调用栈、寄存器。 在上图中,我们把小黑圈视为全局变量,也就是把它作为root object
,从小黑圈出发,对象1
可直达,那么它将被标记,对象2、3
可间接到达也会被标记,而4和5不可达,那么1、2、3就是活动对象,4和5是非活动对象会被GC回收。
标记清除算法作为Python的辅助垃圾收集技术主要处理的是一些容器对象,比如list、dict、tuple,instance等,因为对于字符串、数值对象是不可能造成循环引用问题。Python使用一个双向链表将这些容器对象组织起来。不过,这种简单粗暴的标记清除算法也有明显的缺点:清除非活动的对象前它必须顺序扫描整个堆内存,哪怕只剩下小部分活动对象也要扫描所有对象。
3.分代回收
- Python将所有的对象分为
0,1,2三代
; - 所有的新建对象都是0代对象;
- 当某一代对象经历过垃圾回收,依然存活,就被归入下一代对象。
新创建的对象都会分配在年0代
,0代
链表的总数达到上限时,Python垃圾收集机制就会被触发,把那些可以被回收的对象回收掉,而那些不会回收的对象就会被移到1代
去,依此类推,2代
中的对象是存活时间最久的对象,甚至是存活于整个系统的生命周期内。
同时,分代回收是建立在标记清除技术基础之上。分代回收同样作为Python的辅助垃圾收集技术处理那些容器对象