前几天和朋友聊到了append要少用的问题。我当时其实挺疑惑的,因为append真的是List很重要的一个函数啊。
我当时想到的是list除了append以外还有别的替代方案吗?
当时想到的只有
example_list = [*example_list, other_element]
但仔细一想,这个做法其实就是先把原来的复制一份,然后加上新的元素在赋值回去,于是做了个测试:
结果是
结果显而易见,(如果同样采用200,000个,实在是太久了,我实在是等不下去了,所以只用了20,000个循环),append完胜。
然后回到原来的那个问题,他的解答是:“其本质原因似乎是因为数据量足够大的时候,继续append的话,数据的大小可能会超过分配给这个List的内存。这个时候python会将这个List复制一份,并且重新分配一个更大的内存给这个List,分配内存再复制的这个部分就很慢了。”
Python因为其语言特性,我们没有办法指定python分配固定的内存给一个变量。所以会出现上述提到的当所需内存超过分配内存,然后系统自动再次分配内存的问题。所以最好的做法其实还是沿用cpp等语言的做法,想办法搞一个大内存的变量,然后改里面的值。
这里的例子是给一个空List再加上200,000个元素,那我们就开始就给他生成一个拥有200,000个元素的List,然后再往里面该值就好了。于是
直接上图, 47.9ms,相对于直接是用append方法的57.9ms,先分配内存再赋值的方法胜出。
再次尝试更长的序列,采用2,000,000长度的List:
差距更加明显了,可以看出,数组越大时,内存分配占用的时间将越长,因此在处理很大的数据的时候,建议少使用append的方法,并且采用最原始的先分配足够内存再赋值的方法会快的多。