python——变量开辟内存相关问题

南京丛林Jungle

已于 2023-05-15 13:39:26 修改

阅读量2k

点赞数 6

分类专栏： python专栏文章标签： python

于 2022-11-07 00:53:47 首次发布

本文链接：https://blog.csdn.net/iamballer77/article/details/127722933

版权

python专栏专栏收录该内容

6 篇文章 1 订阅

订阅专栏

内存开辟相关

Python 中的变量不需要提前声明,解释器解释到赋值时，会自动推导出变量内存储什么类型的值。每个变量在使用前都必须赋值，变量赋值以后该变量才会被创建。赋值即定义！
变量其实就是一个名字，或者说一个标签，赋值操作实际上就是将对象和这个名字绑定了起来。更准确的说，变量指向了对象的内存地址。 所以各种赋值操作实质传递的是内存地址。
所以变量其实没有数据类型，我们所说的"类型"是变量所指的内存中对象的数据类型。

内存开辟

赋值操作会在内存中开辟空间并存储对象的值，并创建一个id值，存储它在内存的地址。赋值符号将id地址绑定给变量名。

1、变量名与值内存地址的关联关系存放于栈区
2、变量值存放于堆区

x = 10
y = 20

当我们执行x = y 时, x得到了y传递过来的内存地址，x就指向新内存地址的值。所以x的值也变成20

再举例

x = 10  # 值10在堆中开辟空间，地址为id1，变量x绑定内存地址id1，所以x指向值10
y = x   # 前文有提到，赋值操作实质是内存地址的传递，
		# 所以此步骤 y得到了x传递过来的内存地址id1，变量y也绑定内存地址id1，所以y指向值10
x = 30  # 值30在堆中开辟空间，地址为id2，变量x绑定内存地址id2，所以x指向值30
print(y)  # 所以y打印是10

注：当然以上仅为举例，实际上，python为了性能优化，避免为整数频繁申请和销毁内存空间，小整数对象池（-5 ～ 256）中的整数都是在内存中一直开辟好的。这个后续细述。

x = '你好'  # 字符串 你好 在堆中开辟空间，地址为id1，变量x绑定内存地址id1，所以x指向字符串 你好
y = ['a','b','c','d',x]  # 前文有提到，赋值操作实质是内存地址的传递，
				  # 所以此步骤 列表['a','b','c','d',x]在堆中开辟空间，地址为id2，
				  # 其中每个成员也分别需要开辟空间，其中第五个成员得到了x传递的地址
				  # 所以第五个成员指向id1的值：你好
				  # ['a','b','c','d','你好']
				  
x = '不好'  # 字符串 不好 在堆中开辟空间，地址为id2，变量x绑定内存地址id3，所以x指向字符串 不好
print(y)  # # ['a','b','c','d','你好']

小整数池

python中经常使用的一些数值定义为小整数池，小整数池的范围是[-5,256]，python对这些数值已经提前创建好了内存空间，即使多次重新定义也不会在重新开辟新的空间，但是小整数池外的数值在重新定义时都会再次开辟新的空间。

所以对于小整数池中的数，内存地址一定是相同的，小整数池中外的数，内存地址是不同的。

>>> a = 10
>>> b = 10
>>> print(a is b)
True

>>> a = 257
>>> b = 257
>>> print(a is b)
False

python缓存机制

但你会发现，如果不在交互模式中，而是在脚本模式或者 IDE环境中，小整数池外的数，内存地址也是相同的

>>> a = 257;b = 257;print(a is b)
True

IDE环境

这是由于python的缓存机制，在同一代码块下，不可变数据类型的对象（数字，字符串，元祖)
被多个变量引用，不会重复开辟内存空间

a = 257
b = 257
print(a is b)  # True

a = '123'
b = '123'
print(a is b)  # True

a = (1, 2, 3)
b = (1, 2, 3)
print(a is b)  # True

a = [1, 2]
b = [1, 2]
print(a is b)  # False  可变数据类型，需要重新开辟空间

所以我们平时写代码，在同一代码块下，只要是不可变数据类型的对象（数字，字符串，元祖）
被多个变量引用，不会重复开辟内存空间，可变数据类型的对象会开辟不同空间

字符串intern机制

刚有提到，在命令行除了小整数池，都会开辟不同的内存地址。
但你会发现，在命令行模式中，有的字符串并没有开辟不同的空间：

>>> a = '123'
>>> b = '123'
>>> print(a is b)
True

这是由于字符串的intern机制，也就是说在命令行模式下，有个intern机制：如果当前变量引用的字符串对象已经存在的话，直接增加对应字符串对象的引用，而不去创建新的字符串对象。适用范围是：只包含[a-zA-Z0-9_]，也就是说字符串只能包含字母数字下划线，如果有其他符号，就不使用intern机制。

>>> a = '12 3'
>>> b = '12 3'
>>> print(a is b)
False

列表内存开辟

# 定义一个列表
a = [10,20,30,40]
# 打印列表a的地址以及其元素

print(id(a))  # 4376650528
print(id(a[0])) # 10--4527943632
print(id(a[1])) # 20--4527943952
print(id(a[2])) # 30--4527944272
print(id(a[3])) # 40--4527944592

在这里插入图片描述

# 定义一个列表
a = [10,20,30,40]

# 使用a.append()
a.append(50)
print(a)   # [10,20,30,40,50]
print(id(a))  #4376650528

列表是可变数据类型，地址不变，值可变。因此，添加新的值之后，地址也是不变的。

函数的参数传递

实参：调用函数时，小括号中的参数，用来把数据传递到函数内部

形参：定义函数时，小括号中的参数，用来接收参数，在函数内部作为变量使用

对于参数传递，函数中修改传参，到底影不影响外部变量，可以理解为把实参赋值给了形参即：形参 = 实参

即：形参和实参指同一个地址，至于形参的改变会不会影响实参，就根据内存开辟相关的知识判断就可以，和函数本身没有关系

可变和不可变数据类型

不可变数据类型：数字，字符串，元祖

可变数据类型：列表，集合，字典

可变指：地址不变的情况下，可以改变其内部元素。

不可变指：地址不变的情况下，其值不可变。

浅拷贝和深拷贝

Python 深拷贝和浅拷贝概念理解
- 浅拷贝
拷贝的程度浅，重新分配一块内存，创建一个新的对象，但里面的元素是原对象中各个子对象的引用。

使用数据类型本身的构造器完成的也是浅拷贝，list2 = list(list1)
对于可变的序列，还可以通过切片操作符 : 来完成浅拷贝
Python 还提供了对应的函数 copy.copy() 函数，适用于任何数据类型

b = a.copy(): 浅拷贝, a 和 b 是一个独立的对象，但他们的子对象还是指向统一对象（是引用）

- 深拷贝
拷贝的程度深，重新分配一块内存，创建一个新的对象，并且将原对象中的元素，以递归的方式，通过创建新的子对象拷贝到新对象中。因此，新对象和原对象没有任何关联

Python 中以 copy.deepcopy() 来实现对象的深度拷贝

在这里插入图片描述

b = copy.deepcopy(a): 深度拷贝, a 和 b 完全拷贝了父对象及其子对象，两者是完全独立的。

-直接赋值

其实就是对象的引用（别名）
在这里插入图片描述

b = a: 赋值引用，a 和 b 都指向同一个对象。

总结

使用浅拷贝：
浅拷贝在拷贝时，只会copy第一层，如果第一层是可变类型，就在内存中开辟一个空间复制下来，如果第一层是不可变数据类型，就沿用之前的引用。更深的层次（里面层）并没有copy，沿用之前的引用。
所以对于列表来讲，列表浅拷贝之后的新列表和原列表的修改是否会影响对方，主要看列表内部的索引位有没指向新的引用，如果有，那么就不会互相影响。否则就会。

内部索引位指向新的引用情况：直接对索引位进行重新赋值：a[0] = xxx，那么这个索引位肯定重新指向xxx
内部索引位不指向新的引用情况：元素就地修改(一些可变类型)，如元素是列表，这个列表内部元素进行自身的一些修改。

所以对于全是不可变数据类型元素的列表，浅拷贝得到的新列表和原列表之间的修改都不会影响对方
只有列表中包含了可变数据类型，且此可变数据类型进行了修改，没有改变此索引位的指向，才会影响对方。

使用深拷贝:
深拷贝时，会逐层进行拷贝，遇到可变类型，就开辟一块内存复制下来，遇到不可变类型就沿用之前的引用。
因为不可变数据修改会从新开辟新的空间，所以，深拷贝数据之间的修改都不会相互影响。

直接赋值
就是直接指向同一个对象，一切按照内存开辟来判断引用是否更换。

垃圾回收机制ＧＣ

Python的GC模块主要运用了“引用计数”（reference counting）来跟踪和回收垃圾。在引用计数的基础上，还可以通过“标记-清除”（mark and sweep）解决容器对象可能产生的循环引用的问题，并且通过“分代回收”（generation collection）以空间换取时间的方式来进一步提高垃圾回收的效率

引用计数

引用计数就是：变量值被变量名关联的次数
如：age=18
变量值18被关联了一个变量名age，称之为引用计数为1

引用计数增加：
age=18 （此时，变量值18的引用计数为1）
m=age （把age的内存地址给了m，此时，m,age都关联了18，所以变量值18的引用计数为2）

引用计数减少：
age=10（名字age先与值18解除关联，再与3建立了关联，变量值18的引用计数为1）
del m（del的意思是解除变量名x与变量值18的关联关系，此时，变量18的引用计数为0)

值18的引用计数一旦变为0，其占用的内存地址就应该被解释器的垃圾回收机制回收

标记清除

引用计数机制存在着一个致命的弱点，即循环引用（也称交叉引用）

# 如下我们定义了两个列表，简称列表1与列表2，变量名l1指向列表1，变量名l2指向列表2
 l1=['xxx']  # 列表1被引用一次，列表1的引用计数变为1   
 l2=['yyy']  # 列表2被引用一次，列表2的引用计数变为1   
 l1.append(l2)             # 把列表2追加到l1中作为第二个元素，列表2的引用计数变为2
 l2.append(l1)             # 把列表1追加到l2中作为第二个元素，列表1的引用计数变为2
 
# l1与l2之间有相互引用
# l1 = ['xxx'的内存地址,列表2的内存地址]
# l2 = ['yyy'的内存地址,列表1的内存地址]
>>> l1
['xxx', ['yyy', [...]]]
>>> l2
['yyy', ['xxx', [...]]]
>>> l1[1][1][0]
'xxx'

在这里插入图片描述

循环引用会导致：值不再被任何名字关联，但是值的引用计数并不会为0，应该被回收但不能被回收，什么意思呢？试想一下，请看如下操作

>>> del l1 # 列表1的引用计数减1，列表1的引用计数变为1
>>> del l2 # 列表2的引用计数减1，列表2的引用计数变为1

此时，只剩下列表1与列表2之间的相互引用
在这里插入图片描述

但此时两个列表的引用计数均不为0，但两个列表不再被任何其他对象关联，没有任何人可以再引用到它们，所以它俩占用内存空间应该被回收，但由于相互引用的存在，每一个对象的引用计数都不为0，因此这些对象所占用的内存永远不会被释放，所以循环引用是致命的，这与手动进行内存管理所产生的内存泄露毫无区别。

所以Python引入了“标记-清除” 与“分代回收”来分别解决引用计数的循环引用与效率低的问题

容器对象（比如：list，set，dict，class，instance）都可以包含对其他对象的引用，所以都可能产生循环引用。而“标记-清除”计数就是为了解决循环引用的问题。

标记/清除算法的做法是当应用程序可用的内存空间被耗尽的时，就会停止整个程序，然后进行两项工作，第一项则是标记，第二项则是清除

#1、标记
通俗地讲就是：
栈区相当于“根”，凡是从根出发可以访达（直接或间接引用）的，都称之为“有根之人”，
有根之人当活，无根之人当死。
 
具体地：标记的过程其实就是，遍历所有的GC Roots对象(栈区中的所有内容或者线程都可以作为GC Roots对象），
然后将所有GC Roots的对象可以直接或间接访问到的对象标记为存活的对象，其余的均为非存活对象，应该被清除。
 
#2、清除
清除的过程将遍历堆中所有的对象，将没有标记的对象全部清除掉。

基于上例的循环引用，当我们同时删除l1与l2时，会清理到栈区中l1与l2的内容以及直接引用关系
在这里插入图片描述

这样在启用标记清除算法时，从栈区出发，没有任何一条直接或间接引用可以访达l1与l2，即l1与l2成了“无根之人”，于是l1与l2都没有被标记为存活，二者会被清理掉，这样就解决了循环引用带来的内存泄漏问题

分代回收

基于引用计数的回收机制，每次回收内存，都需要把所有对象的引用计数都遍历一遍，这是非常消耗时间的，于是引入了分代回收来提高回收效率，分代回收采用的是用“空间换时间”的策略。

分代：

分代回收的核心思想是：在历经多次扫描的情况下，都没有被回收的变量，gc机制就会认为，该变量是常用变量，gc对其扫描的频率会降低，具体实现原理如下

分代指的是根据存活时间来为变量划分不同等级（也就是不同的代）
 
新定义的变量，放到新生代这个等级中，假设每隔1分钟扫描新生代一次，如果发现变量依然被引用，
那么该对象的权重（权重本质就是个整数）加一，当变量的权重大于某个设定得值（假设为3），
会将它移动到更高一级的青春代，青春代的gc扫描的频率低于新生代（扫描时间间隔更长），
假设5分钟扫描青春代一次，这样每次gc需要扫描的变量的总个数就变少了，节省了扫描的总时间，
接下来，青春代中的对象，也会以同样的方式被移动到老年代中。也就是等级（代）越高，
被垃圾回收机制扫描的频率越低

回收：

回收依然是使用引用计数作为回收的依据

虽然分代回收可以起到提升效率的效果，但也存在一定的缺点：

例如一个变量刚刚从新生代移入青春代，该变量的绑定关系就解除了，该变量应该被回收，
但青春代的扫描频率低于新生代，这就到导致了应该被回收的垃圾没有得到及时地清理。

没有十全十美的方案：
毫无疑问，如果没有分代回收，即引用计数机制一直不停地对所有变量进行全体扫描，
可以更及时地清理掉垃圾占用的内存，但这种一直不停地对所有变量进行全体扫描的方式效率极低，
所以我们只能将二者中和。

综上
垃圾回收机制是在清理垃圾&释放内存的大背景下，允许分代回收以极小部分垃圾不会被及时释放为代价，
以此换取引用计数整体扫描频率的降低，从而提升其性能，这是一种以空间换时间的解决方案