《Python源码剖析》阅读笔记：第五章-dict对象

最新推荐文章于 2022-06-17 21:06:57 发布

原创最新推荐文章于 2022-06-17 21:06:57 发布 · 5.9k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#python #null #table #string #struct #cache

《Python源码剖析》阅读笔记专栏收录该内容

5 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

第五章-dict对象

Python里的dict和C++ STL的map一样，都是映射容器（key->value），但实现原理不同。由于Python内部大量使用dict这种结构（比如字符串对象的intese机制），效率要求很高，所以Python没有使用STL map的平衡二叉树，而采用哈希表，最低能在O(1)时间内完成搜索。
使用hash就必须解决冲突的问题，dict采用的是开放寻址法。原因我觉得是开放寻址法比拉链法能更好地利用CPU cache，cache命中率较高。
探测函数为 i = (i << 2) + i + perturb + 1; perturb每探测一次就除以2^5。

dict的哈希表里每个slot都是一个自定义的entry结构：
typedef struct {

Py_ssize_t me_hash;
PyObject *me_key;
PyObject *me_value;

} PyDictEntry;
意义顾名思义，不多说了。

每个entry有三种状态：Active, Unused, Dummy。
Unused：me_key == me_value == NULL，即未使用的空闲状态。
Active：me_key != NULL, me_value != NULL，即该entry已被占用
Dummy：me_key == dummy, me_value == NULL。
哈希探测结束的条件是探测到一个Unused的entry。但是dict操作中必定会有删除操作，如果删除时仅把Active标记成Unused，显然该entry之后的所有entry都不可能被探测到，所以引入了dummy结构。遇到dummy就说明当前entry处于空闲状态，但探测不能结束。这样就解决了删除一个entry之后探测链断裂的问题。

dict对象的定义为：
struct _dictobject {

PyObject_HEAD
Py_ssize_t ma_fill; /* # Active + # Dummy */
Py_ssize_t ma_used; /* # Active */

Py_ssize_t ma_mask;

PyDictEntry *ma_table;
PyDictEntry *(*ma_lookup)(PyDictObject *mp, PyObject *key, long hash);
PyDictEntry ma_smalltable[PyDict_MINSIZE];

};
ma_fill记录Active + Dummy状态的entry数。
ma_used记录Active状态的entry数。
ma_mask等于slot总数 - 1。因为一个key的哈希值很可能超过slot总数，所以作为索引时得把它约束在slot总数的范围内。而slot总数在定义的时候必须是2的乘幂，比如0x1000，所以减1之后就成了mask：0x111。再和hash做个&操作就能把索引之限制在0~0x111之间，即slot总数0x1000个，比较巧妙：）
ma_smalltable是默认的slot，初始有PyDict_MINSIZE个。
ma_table初始指向ma_smalltable，如果后期扩容，则指向新的slot空间。
ma_lookup为搜索函数指针

dict对象的创建很简单，先看看缓冲的对象池里有没有可用对象，如果有就直接用，没有就从堆上申请。把fill和used域设成0。由于Python中把字符串作为key的情况很多，所有搜索函数就有一个针对string优化过的版本：lookdict_string。如果在检查时发现key不是string对象，则调用默认的lookdict函数搜索。

dict的插入操作由insertdict函数完成。插入操作的意义是：如果不存在key-value则插入，存在则覆盖。所以先通过ma_lookup所指向的函数得到key所对应的entry。如果value不等于NULL，说明找到，将key指针替换。否则就直接在返回的entry上设置新的key-value对。
Python在处理d[key] = value这样的表达式的时候调用的是insertdict函数的包装函数PyDict_SetItem。PyDict_SetItem会计算key的哈希值，然后把需要的信息传递给insertdict。然后根据ma_table剩余空间的大小决定是否resize。传说和理论证明超过容量的2/3时冲突的概率大大增加，所以超过2/3后会进行扩容。

dict里entry的删除更简单，算出哈希值，找到entry，将其从Active转换成Dummy，并调整table的容量。

最后是对象池。和前面list对象池一样，dealloc时只回收table的内存，然后将dict放到池中，供后来new时再用。减少向堆申请内存的操作。

您可能感兴趣的与本文相关的镜像