Python字典的实现原理

最新推荐文章于 2025-03-11 16:03:01 发布

FanMLei

最新推荐文章于 2025-03-11 16:03:01 发布

阅读量3.2k

点赞数 2

CC 4.0 BY-SA版权

分类专栏：学习笔记

本文链接：https://blog.csdn.net/FanMLei/article/details/80907453

本文探讨了Python字典（dict）和集合（set）的内部实现，包括它们为何无序、作为键的对象限制以及哈希冲突的解决方法。Python dict基于散列表，键必须可hash，通过hash()计算散列值并根据数组长度取余确定位置。哈希冲突通过开放寻址法解决。dict在扩容时可能导致顺序变化，若要保持插入顺序可使用OrderedDict。集合set同样基于散列表，但不包含键，其余特性与dict相似。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

以下是自己的学习记录，算是一个总结。

接下来会依次对下面问题做一个解答：
1. Python的dict和set为什么是无序的？
2. 为什么不是所有的python对象都可以用作dict的键和set中的元素

要弄懂上面的问题，我们首先要了解Python内部是如何实现dict和set类型的。我们先来看看dict的内部结构，dict其实本质上是一个散列表（散列表即总有空白元素的数组，Python会保证至少有三分之一的数组元素是空的），dict的每个键都占用一个表元，而一个表元中又分为两个部分，分别是对键的引用和对值的引用。当我们存放一个对象的时候，首先会要计算这个元素的散列值，python中使用hash()方法来实现的，这也就回答了第二个问题，因为不是所有的python对象都可以使用hash来获取散列值，获取不到散列值也就不可能存放到dict中，所以只有可hash的对象才能够作为dict的键。值得注意的是内置的hash方法可以用于所有的内置类型对象的，所有用户自定义的对象默认都是可以作为键的，因为自定义对象的散列值是通过id()来获取的。例如：

class T(object):
    pass


t = T()

print(id(t))
d = {t: 1}
print(d)

###  2133693018240
###  {<__main__.T object at 0x000001F0CA03B080>: 1}

现在假设我们已经获取到了元素的散列值，接下来就该计算应当存放位置了，将散列值对数组长度进行取余，得到的结果就是存放位置的索引了。但是不同的key可能会得到相同的散列值，也就是哈希冲突的问题，python内部是使用开放寻址的方法来解决的，开放寻址法就不在此详细说了。关于为什么dict是无序的，这个是因为python内部会保证散列表至