关闭

《Python源码剖析》阅读笔记:第五章-dict对象

标签: pythonnulltablestringstructcache
4133人阅读 评论(0) 收藏 举报
分类:

第五章-dict对象

 Python里的dict和C++ STL的map一样,都是映射容器(key->value),但实现原理不同。由于Python内部大量使用dict这种结构(比如字符串对象的intese机制),效率要求很高,所以Python没有使用STL map的平衡二叉树,而采用哈希表,最低能在O(1)时间内完成搜索。
使用hash就必须解决冲突的问题,dict采用的是开放寻址法。原因我觉得是开放寻址法比拉链法能更好地利用CPU cache,cache命中率较高。
探测函数为 i = (i << 2) + i + perturb + 1; perturb每探测一次就除以2^5。

dict的哈希表里每个slot都是一个自定义的entry结构:
typedef struct {

Py_ssize_t me_hash;
PyObject *me_key;
PyObject *me_value;
} PyDictEntry;
意义顾名思义,不多说了。

每个entry有三种状态:Active, Unused, Dummy。
Unused:me_key == me_value == NULL,即未使用的空闲状态。
Active:me_key != NULL, me_value != NULL,即该entry已被占用
Dummy:me_key == dummy, me_value == NULL。
哈希探测结束的条件是探测到一个Unused的entry。但是dict操作中必定会有删除操作,如果删除时仅把Active标记成Unused,显然该entry之后的所有entry都不可能被探测到,所以引入了dummy结构。遇到dummy就说明当前entry处于空闲状态,但探测不能结束。这样就解决了删除一个entry之后探测链断裂的问题。

dict对象的定义为:
struct _dictobject {

PyObject_HEAD
Py_ssize_t ma_fill; /* # Active + # Dummy */
Py_ssize_t ma_used; /* # Active */

Py_ssize_t ma_mask;

PyDictEntry *ma_table;
PyDictEntry *(*ma_lookup)(PyDictObject *mp, PyObject *key, long hash);
PyDictEntry ma_smalltable[PyDict_MINSIZE];
};
ma_fill记录Active + Dummy状态的entry数。
ma_used记录Active状态的entry数。
ma_mask等于slot总数 - 1。因为一个key的哈希值很可能超过slot总数,所以作为索引时得把它约束在slot总数的范围内。而slot总数在定义的时候必须是2的乘幂,比如0x1000,所以减1之后就成了mask:0x111。再和hash做个&操作就能把索引之限制在0~0x111之间,即slot总数0x1000个,比较巧妙:)
ma_smalltable是默认的slot,初始有PyDict_MINSIZE个。
ma_table初始指向ma_smalltable,如果后期扩容,则指向新的slot空间。
ma_lookup为搜索函数指针

dict对象的创建很简单,先看看缓冲的对象池里有没有可用对象,如果有就直接用,没有就从堆上申请。把fill和used域设成0。由于Python中把字符串作为key的情况很多,所有搜索函数就有一个针对string优化过的版本:lookdict_string。如果在检查时发现key不是string对象,则调用默认的lookdict函数搜索。

dict的插入操作由insertdict函数完成。插入操作的意义是:如果不存在key-value则插入,存在则覆盖。所以先通过ma_lookup所指向的函数得到key所对应的entry。如果value不等于NULL,说明找到,将key指针替换。否则就直接在返回的entry上设置新的key-value对。
Python在处理d[key] = value这样的表达式的时候调用的是insertdict函数的包装函数PyDict_SetItem。PyDict_SetItem会计算key的哈希值,然后把需要的信息传递给insertdict。然后根据ma_table剩余空间的大小决定是否resize。传说和理论证明超过容量的2/3时冲突的概率大大增加,所以超过2/3后会进行扩容。

dict里entry的删除更简单,算出哈希值,找到entry,将其从Active转换成Dummy,并调整table的容量。

最后是对象池。和前面list对象池一样,dealloc时只回收table的内存,然后将dict放到池中,供后来new时再用。减少向堆申请内存的操作。


0
0

查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
    个人资料
    • 访问:145974次
    • 积分:1892
    • 等级:
    • 排名:千里之外
    • 原创:42篇
    • 转载:22篇
    • 译文:0篇
    • 评论:14条
    最新评论