引用计数机制概述
Garbage collection(GC)
现在的高级语言如java,c#等,都采用了垃圾收集机制,而不再是c,c++里用户自己管理维护内存的方式。自己管理内存极其自由,可以任意申请内存,但如同一把双刃剑,为大量内存泄露,悬空指针等bug埋下隐患。
对于一个字符串、列表、类甚至数值都是对象,且定位简单易用的语言,自然不会让用户去处理如何分配回收内存的问题。
python里也同java一样采用了垃圾收集机制,不过不一样的是:Python采用的是引用计数机制为主,标记-清除和分代收集两种机制为辅的策略。
引入计数原型
python里每一个东西都是对象,他们的核心就是一个结构体:PyObject
PyObject是每个对象必有的内容,其中ob_refcnt就是作为引用计数,当一个对象有新的引用时,它的obrefcnt就回增加,当引用它的对象被删除,它的ob_refcnt就会减少
当引用计数为0时,该对象生命就结束了。
实操体验:
这个里面的前两次print结束之后会释放掉,所以不计数,有8次
引用计数优点
1、简单
2、实时性:一旦没有引用,内存就直接释放掉了。不用像其他机制需要等到特定时机。实时性还带来一个好处:处理回收内存的时间分摊到了平时。
引用计数缺点
1、维护引用计数会消耗资源
2、循环引用
list1与list2相互引用,如果不存在其他对象对它们的引用,list1与list2的引用计数也仍然为1,所占用的内存永远无法被回收,这将是致命的。
对于如今的强大硬件,缺点1尚可接受,但是循环引用导致内存泄露,注定python还将引入新的回收机制。(标记清除和分代收集)
GC负责的主要任务
1、为新生成的对象分配内存
2、识别那些垃圾对象
3、从垃圾对象那回收垃圾
python中的循环数据结构及引用计数
标记-清除机制
顾名思义,首先标记对象(垃圾检测),然后清除垃圾(垃圾回收)
首先初始所有对象标记为白色,并确定根节点对象(这些对象是不会被删除),标记他们为黑色(表示对象有效),将有效对象引用的对象标记为灰色(表示对象可达,但他们所引用的对象还没检查),检查完灰色对象引用的对象之后,将灰色标记为黑色。重复直到不存在灰色节点为止,最后白色节点都是需要清楚的对象。
这时我们发现,执行完毕之后a和b虽然在程序中已经结束了,但其所占用空间并未释放
。这是因为他们相互作用,所占用的内存永远也无法被回收。
如果只是这种小型程序还好,如果是大型程序,将会非常耗用空间。
此时可以看看他们被几个进程:
删除他们是不是可以释放掉内存呢?
还是不能
利用GC手动释放
gc一般是自动释放的,我们这里因为没有达到自动释放的条件所以来进行手动释放
引用计数不能回收的案例分析
如果一个数据结构引用了它自身,即如果这个数据结构是一个循环数据结构,那么某些引用计数值是肯定无法变成0的。为了更好地理解这个问题,来举个例子:
两个节点的引用计数都被初始化为1,因为各有两个引用指向各个节点(n1和n2),现在,让我们在节点中定义两个附加的属性,next以及prev:
我们设置n1.next指向n2,同时设置n2.prev指回n1。
现在,我们的两个节点使用循环引用的方式构成了一个双端链表。
同时请注意到ABC以及DEF的引用计数值已经增加到了2.
这里有两个指针指向了每个节点;首先是n1以及n2,其次就是next以及prev
现在,假定我们的程序不再使用这两个节点了,我们将n1和n2都设置为null(python中是none)
python会像往常一样将每个节点的引用计数减少到1.
此时上面的例子成了一个“孤岛”或是一组未使用的、互相指向的对象,但是谁都没有外部引用。
换句话说,我们的程序不再使用这些节点对象了,所以我们希望python的垃圾回收机制能够足够智能去释放这些对象并回收他们占用的内存空间。但是这不可能,因为所有的引用计数都是1而不是0.python的引用计数算法不能够处理互相指向自己的对象。
python零代链表
python中的GC阈值