篇前:仅为景霄老师课堂学习笔记,非长文。
Python 中最常见的两种数据结构:列表(list)和元组(tuple)。
列表和元组基础
列表和元组,都是一个可以放置任意数据类型的有序集合。
在绝大多数编程语言,集合的数据类型必须一致。但 Python 的列表和元组无此要求。
l = [1, 2, 'hello', 'world'] # 列表中同时含有 int 和 string 类型的元素。使用中括号
tup = ('jason', 22) # 元组中同时含有 int 和 string 类型的元素。使用圆括号
注意:string 类型的元素,必须使用引号括起来,首选单引号,可以嵌套
区别:
列表是动态的,长度大小不固定,可以随意地增加、删减或者改变元素(mutable)。
而元组是静态的,长度大小固定,无法增加删减或者改变(immutable)。
也就是说,
修改列表,可以在列表末尾追加,如
l = [1, 2, 3, 4]
l.append(5) # 添加元素 5 到原列表的末尾
要使用包含不同元素的元组,就必须新建一个元组。
tup = (1, 2, 3, 4)
new_tup = tup + (5, ) # 创建新的元组 new_tup,并依次填充原元组的值
和其他语言不同,Python 中的列表和元组都支持负数索引,-1 表示最后一个元素,-2 表示倒数第二个元素,以此类推。
Python 中的列表和元组的正向索引,从 0 开始。
除了基本的初始化,索引外,列表和元组都支持切片操作:
l = [1, 2, 3, 4]
l[1:3] # 返回列表中索引从 1 到 2 的子列表
tup = (1, 2, 3, 4)
tup[1:3] # 返回元组中索引从 1 到 2 的子元组
索引使用 中括号,切片指定的位置,如 1:3,1 为起始索引位,3 表示切片到该索引位之前,不含该索引位。
另外,列表和元组都可以随意嵌套:
l = [[1, 2, 3], [4, 5]] # 列表的每一个元素也是一个列表
tup = ((1, 2, 3), (4, 5, 6)) # 元组的每一个元素也是一元组
两者也可以通过 list() 和 tuple() 函数相互转换:
list((1, 2, 3)) # 元组转 列表
[1, 2, 3]
tuple([1, 2, 3]) # 列表转 元组
(1, 2, 3)
一些列表和元组常用的内置函数:
.count(item) 表示统计列表 / 元组中 item 出现的次数。即,指定元素计数
.index(item) 表示返回列表 / 元组中 item 第一次出现的索引。即,指定元素索引位
list.reverse() 和 list.sort() 分别表示原地倒转列表和排序(注意,元组没有内置的这两个函数)。
.reversed() 和 .sorted() 同样表示对列表 / 元组进行倒转和排序,但是会返回一个倒转后或者排好序的新的列表 / 元组。
列表和元组存储方式的差异
l = [1, 2, 3]
l.__sizeof__()
64
tup = (1, 2, 3)
tup.__sizeof__()
48
元组的存储空间要比列表少得多。原因?
事实上,由于列表是动态的,所以它需要存储指针,来指向对应的元素(上述例子中,对于 int 型,8 字节)。另外,由于列表可变,所以需要额外存储已经分配的长度大小(8 字节),这样才可以实时追踪列表空间的使用情况,当空间不足时,及时分配额外空间。
l = []
l.__sizeof__() // 空列表的存储空间为 40 字节
40
l.append(1)
l.__sizeof__()
72 // 加入了元素 1 之后,列表为其分配了可以存储 4 个元素的空间 (72 - 40)/8 = 4
l.append(2) # 增加 string 类型元素占用空间一样,一个元素占用 8 个字节的存储空间
l.__sizeof__()
72 // 由于之前分配了空间,所以加入元素 2,列表空间不变
l.append(3)
l.__sizeof__()
72 // 同上
l.append(4)
l.__sizeof__()
72 // 同上
l.append(5)
l.__sizeof__()
104 // 加入元素 5 之后,列表的空间不足,所以又额外分配了可以存储 4 个元素的空间
增删元素的时间复杂度
为了减小每次增加 / 删减操作时空间分配的开销,Python 每次分配空间时都会额外多分配一些,这样的机制(over-allocating)保证了其操作的高效性:增加 / 删除的时间复杂度均为 O(1)。
但是对于元组,情况就不同了。元组长度大小固定,元素不可变,所以存储空间固定。
注:O(1)通常表示算法的时间复杂度是常数
在只有少量元素时,列表和元组的时间复杂度差异几乎可以忽略。
但是当大量甚至巨量元素时,列表和元组的时间复杂度差异就会变得巨大。
列表和元组的性能
通过学习列表和元组存储方式的差异,我们可以得出结论:
元组要比列表更加轻量级一些,所以总体上来说,元组的性能速度要略优于列表。
另外,Python 会在后台,对静态数据做一些资源缓存(resource caching)。通常来说,因为垃圾回收机制的存在,如果一些变量不被使用了,Python 就会回收它们所占用的内存,返还给操作系统,以便其他变量或其他应用使用。
但是对于一些静态变量,比如元组,如果它不被使用并且占用空间不大时,Python 会暂时缓存这部分内存。这样,下次我们再创建同样大小的元组时,Python 就可以不用再向操作系统发出请求,去寻找内存,而是可以直接分配之前缓存的内存空间,这样就能大大加快程序的运行速度。
下面的例子,是计算初始化一个相同元素的列表和元组分别所需的时间。
python3 -m timeit 'x=(1,2,3,4,5,6)'
20000000 loops, best of 5: 9.97 nsec per loop
python3 -m timeit 'x=[1,2,3,4,5,6]'
5000000 loops, best of 5: 50.1 nsec per loop
可以看到,元组的初始化速度,要比列表快 5 倍。另外,python3 要比 python2 速度要快接近10%
但如果是索引操作的话,两者的速度差别非常小,几乎可以忽略不计。
python3 -m timeit -s 'x=[1,2,3,4,5,6]' 'y=x[3]'
10000000 loops, best of 5: 22.2 nsec per loop
python3 -m timeit -s 'x=(1,2,3,4,5,6)' 'y=x[3]'
10000000 loops, best of 5: 21.9 nsec per loop
关于 timeit 的官方解释:
https://docs.python.org/3.7/library/timeit.html:
"If -n is not given, a suitable number of loops is calculated by trying successive powers of 10 until the total time is at least 0.2 seconds."
用法示例:
>>> import timeit
>>> timeit.timeit('x=(1,2,3,4,5,6)',number=1000000)
number=1太少了,会有noise,建议设为1000000以上
列表和元组的使用场景
一般来说,需要增加、删减或者改变元素的,优先选用列表。
那么列表和元组到底用哪一个呢?根据上面所说的特性,我们具体情况具体分析。
1. 如果存储的数据和数量不变,比如你有一个函数,需要返回的是一个地点的经纬度,然后直接传给前端渲染,那么肯定选用元组更合适。
def get_location():
.....
return (longitude, latitude)
2. 如果存储的数据或数量是可变的,比如社交平台上的一个日志功能,是统计一个用户在一周之内看了哪些用户的帖子,那么则用列表更合适。
viewer_owner_id_list = [] # 里面的每个元素记录了这个 viewer 一周内看过的所有 owner 的 id
records = queryDB(viewer_id) # 索引数据库,拿到某个 viewer 一周内的日志
for record in records:
viewer_owner_id_list.append(record.id)
总结
总的来说,列表和元组都是有序的,可以存储任意数据类型的集合,区别主要在于下面这两点。
列表是动态的,长度可变,可以随意的增加、删减或改变元素。列表的存储空间略大于元组,性能略逊于元组。
元组是静态的,长度大小固定,不可以对元素进行增加、删减或者改变操作。元组相对于列表更加轻量级,性能稍优。