Python字典和集合

以下内容是整理极客时间Python核心技术与实战课程的笔记。

什么是字典和集合

字典是由key-value组成的键值对,在python3.6之前无序,在3.7之后implementation detail,字典有序,字典很随意,里面的内容可以随便修改和删除,同时字典中的key和value,都可以是混合类型。
1、字典相比于列表和元组?
字典的在查找、添加和删除操作的时候,时间复杂度很低,而且性能更优秀。
2、元组相比于字典?
集合和字典的区别就在于:集合是一系列无序的,唯一的元素组成。

字典和集合的基本操作

3、字典和元组的创建方式?

## 字典的创建方式
# 第一种,直接描述key-value键值对
d1 = {'name': 'jason', 'age': 20, 'gender': 'male'}
# 第二种,调用dict 来表示key-value
d2 = dict({'name': 'jason', 'age': 20, 'gender': 'male'})
# 第三种
d3 = dict([('name', 'jason'), ('age', 20), ('gender', 'male')])
# 第四种
d4 = dict(name='jason', age=20, gender='male') 


## 集合的创建方式
# 第一种
s1 = {1, 2, 3}
# 第二种
s2 = set([1, 2, 3])

4、字典的元素访问
如果当前的key值不存在,访问的话,会抛出异常
同时字典的访问有两种方式。
也可以使用 get(key, default) 函数来进行索引,如果没有key值,那么get函数会返回一个默认值的。

d = {'name': 'jason', 'age': 20}
# 第一种
d['name']

# 第二种
d.get('name')

d.get('csdn','null')
# null

5、集合的访问
注意一个地方集合并不支持索引操作,因为集合本质上是一个哈希表,和列表不一样。
也就是说,下面这种操作是错误的

s = {1, 2, 3}
# 错误的访问方式
s[0]

集合可以进行一些并交补的操作。一般会通过in 拉来判断某一个值是否在这个集合里面

s = {1, 2, 3}
1 in s

增删改操作如下

## 字典操作
# 增加
d = {'name': 'jason', 'age': 20}
d['gender'] = 'male' # 增加元素对'gender': 'male'
# {'name': 'jason', 'age': 20, 'gender': 'male'}

# 更新
d['name'] = 'csdn' # 更新键'name'对应的值 

# 删除
d.pop('name') # 删除键为'name'的元素对
# {'age': 20, 'gender': 'male'}

## 集合操作
s = {1, 2, 3}
s.add(4) # 增加元素 4 到集合
# {1, 2, 3, 4}
s.remove(4) # 从集合中删除元素 4
# {1, 2, 3}

集合的 pop() 操作是删除集合中最后一个元素,但是集合是无序的,所以不能通过pop指定删除具体元素。

6、字典和集合的排序
对于字典来说,可以对于值分别进行升序和降序

d = {'b': 1, 'a': 2, 'c': 10}
# 根据字典键的升序排序
d_sorted_by_key = sorted(d.items(), key=lambda x: x[0]) 
# [('a', 2), ('b', 1), ('c', 10)]

# 根据字典值的升序排序
d_sorted_by_value = sorted(d.items(), key=lambda x: x[1]) 
# [('b', 1), ('a', 2), ('c', 10)]

对于集合来说,排序方式和列表以及元组的很类似,直接调用 sorted(set) 即可,返回是一个列表。

s = {3, 4, 2, 1}
# 对集合的元素进行升序排序
sorted(s) 
# [1, 2, 3, 4]

字典和集合的工作原理

字典的查找非常便捷高效,只需 O(1) 的时间复杂度就可以完成。字典的内部组成是一张哈希表,你可以直接通过键的哈希值,找到其对应的值。

由于集合是高度优化的哈希表,里面元素不能重复,其添加和查找操作某一个元素的复杂度只有 O(1)。

之所以他们这么高效,和字典、集合内部的数据结构密不可分,字典和集合的内部结构都是一张哈希表

  • 对于字典而言,这张表存储了哈希值(hash)、键和值这 3 个元素。
  • 而对集合来说,区别就是哈希表内没有键和值的配对,只有单一的元素了。

老版本的Python字典的结构如下

--+-------------------------------+
  | 哈希值 (hash)(key)(value)
--+-------------------------------+
0 |    hash0      key0    value0
--+-------------------------------+
1 |    hash1      key1    value1
--+-------------------------------+
2 |    hash2      key2    value2
--+-------------------------------+
. |           ...
__+_______________________________+

可以看见有很多稀疏值,随着hash表的扩张,会变得越来越稀疏。
新版本改进了这个问题,它会把索引和哈希值、键、值单独分开, 它的结构如下

Indices
----------------------------------------------------
None | index | None | None | index | None | index ...
----------------------------------------------------
 
Entries
--------------------
hash0   key0  value0
---------------------
hash1   key1  value1
---------------------
hash2   key2  value2
---------------------
        ...
---------------------

明显可以观察到,空间利用率得到很大的提高。
知道了底部的存储方式,接着了解一下这几个操作的工作原理。
插入查找
每次向字典集合插入一个元素时,Python 会首先计算键的哈希值(hash(key)),再和 mask = PyDicMinSize - 1 做与操作,计算这个元素应该插入哈希表的位置 index = hash(key) & mask。

如果哈希表中此位置是空的,那么这个元素就会被插入其中。
而如果此位置已被占用,Python 便会比较两个元素的哈希值和键是否相等。

若两者都相等,则表明这个元素已经存在,如果值不同,则更新值。
若两者中有一个不相等,这种情况我们通常称为哈希冲突(hash collision),意思是两个元素的键不相等,但是哈希值相等。这种情况下,Python 便会继续寻找表中空余的位置,直到找到位置为止。

值得一提的是,通常来说,遇到这种情况(解决hash冲突),最简单的方式是线性寻找,即从这个位置开始,挨个往后寻找空位。为了高效,Python 内部对此进行了优化。

查找操作
和插入操作类似,Python 会根据哈希值,找到其应该处于的位置;然后,比较哈希表这个位置中元素的哈希值和键,与需要查找的元素是否相等。如果相等,则直接返回;如果不等,则继续查找,直到找到空位或者抛出异常为止。

删除操作
对于删除操作,Python 会暂时对这个位置的元素,赋于一个特殊的值,等到重新调整哈希表的大小时,再将其删除。

原因如下:
哈希冲突的发生,往往会降低字典和集合操作的速度。所以为了保证其高效性,字典和集合内的哈希表,通常会保证其至少留有 1/3 的剩余空间。随着元素的不停插入,当剩余空间小于 1/3 时,Python 会重新获取更大的内存空间,扩充哈希表。不过,这种情况下,表内所有的元素位置都会被重新排放。

虽然哈希冲突和哈希表大小的调整,都会导致速度减缓,但是这种情况发生的次数极少。所以,平均情况下,这仍能保证插入、查找和删除的时间复杂度为 O(1)。

相关思考题

1、下面初始化字典的方式,哪一种更高效?

d = {'name': 'jason', 'age': 20, 'gender': 'male'}
d = dict({'name': 'jason', 'age': 20, 'gender': 'male'})

第一种更高效,不需要调用相关函数,内部会去直接调用底层C已经存在的代码,避免了使用类生成实例其他不必要的操作。

2、字典的键可以是一个列表吗?

d = {'name': 'jason', ['education']: ['Tsinghua University', 'Stanford University']}

字典的key值是不能改变的,但是列表是一个动态可变化的值,改成元组等不可变的就可以。

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值