《Python源码剖析》阅读笔记:第五章-dict对象

原创 2012年08月17日 09:15:16

第五章-dict对象

 Python里的dict和C++ STL的map一样,都是映射容器(key->value),但实现原理不同。由于Python内部大量使用dict这种结构(比如字符串对象的intese机制),效率要求很高,所以Python没有使用STL map的平衡二叉树,而采用哈希表,最低能在O(1)时间内完成搜索。
使用hash就必须解决冲突的问题,dict采用的是开放寻址法。原因我觉得是开放寻址法比拉链法能更好地利用CPU cache,cache命中率较高。
探测函数为 i = (i << 2) + i + perturb + 1; perturb每探测一次就除以2^5。

dict的哈希表里每个slot都是一个自定义的entry结构:
typedef struct {

Py_ssize_t me_hash;
PyObject *me_key;
PyObject *me_value;
} PyDictEntry;
意义顾名思义,不多说了。

每个entry有三种状态:Active, Unused, Dummy。
Unused:me_key == me_value == NULL,即未使用的空闲状态。
Active:me_key != NULL, me_value != NULL,即该entry已被占用
Dummy:me_key == dummy, me_value == NULL。
哈希探测结束的条件是探测到一个Unused的entry。但是dict操作中必定会有删除操作,如果删除时仅把Active标记成Unused,显然该entry之后的所有entry都不可能被探测到,所以引入了dummy结构。遇到dummy就说明当前entry处于空闲状态,但探测不能结束。这样就解决了删除一个entry之后探测链断裂的问题。

dict对象的定义为:
struct _dictobject {

PyObject_HEAD
Py_ssize_t ma_fill; /* # Active + # Dummy */
Py_ssize_t ma_used; /* # Active */

Py_ssize_t ma_mask;

PyDictEntry *ma_table;
PyDictEntry *(*ma_lookup)(PyDictObject *mp, PyObject *key, long hash);
PyDictEntry ma_smalltable[PyDict_MINSIZE];
};
ma_fill记录Active + Dummy状态的entry数。
ma_used记录Active状态的entry数。
ma_mask等于slot总数 - 1。因为一个key的哈希值很可能超过slot总数,所以作为索引时得把它约束在slot总数的范围内。而slot总数在定义的时候必须是2的乘幂,比如0x1000,所以减1之后就成了mask:0x111。再和hash做个&操作就能把索引之限制在0~0x111之间,即slot总数0x1000个,比较巧妙:)
ma_smalltable是默认的slot,初始有PyDict_MINSIZE个。
ma_table初始指向ma_smalltable,如果后期扩容,则指向新的slot空间。
ma_lookup为搜索函数指针

dict对象的创建很简单,先看看缓冲的对象池里有没有可用对象,如果有就直接用,没有就从堆上申请。把fill和used域设成0。由于Python中把字符串作为key的情况很多,所有搜索函数就有一个针对string优化过的版本:lookdict_string。如果在检查时发现key不是string对象,则调用默认的lookdict函数搜索。

dict的插入操作由insertdict函数完成。插入操作的意义是:如果不存在key-value则插入,存在则覆盖。所以先通过ma_lookup所指向的函数得到key所对应的entry。如果value不等于NULL,说明找到,将key指针替换。否则就直接在返回的entry上设置新的key-value对。
Python在处理d[key] = value这样的表达式的时候调用的是insertdict函数的包装函数PyDict_SetItem。PyDict_SetItem会计算key的哈希值,然后把需要的信息传递给insertdict。然后根据ma_table剩余空间的大小决定是否resize。传说和理论证明超过容量的2/3时冲突的概率大大增加,所以超过2/3后会进行扩容。

dict里entry的删除更简单,算出哈希值,找到entry,将其从Active转换成Dummy,并调整table的容量。

最后是对象池。和前面list对象池一样,dealloc时只回收table的内存,然后将dict放到池中,供后来new时再用。减少向堆申请内存的操作。


Python源码剖析-Dict

为了刻画某种关系,现代的编程语言都会提供关联式的容器。关联式容器中的元素分别是以(键(key)或值(value))这样的形式存在。例如(3,5)(3,6)就是一对对应的键与值。 Python中的关联...
  • bigzhao_25
  • bigzhao_25
  • 2016年05月24日 21:05
  • 715

Python源码剖析-Dict

为了刻画某种关系,现代的编程语言都会提供关联式的容器。关联式容器中的元素分别是以(键(key)或值(value))这样的形式存在。例如(3,5)(3,6)就是一对对应的键与值。 Python中的关联...
  • bigzhao_25
  • bigzhao_25
  • 2016年05月24日 21:05
  • 715

Python源码剖析[13] —— 字典对象PyDictObject(2)

[绝对原创 转载请注明出处]Python源码剖析——字典对象PyDictObject(2)本文作者: Robert Chen (search.pythoner@gmail.com) 3        ...
  • balabalamerobert
  • balabalamerobert
  • 2006年01月05日 00:08
  • 16070

《python源码剖析》

  • 2008年11月24日 15:31
  • 756KB
  • 下载

python字典构造函数dict(mapping)解析

本文主要介绍如何使用python字典里的三个构造函数dict(), 以及map函数的使用和zip函数的使用方法。...
  • u014036026
  • u014036026
  • 2014年05月21日 10:11
  • 11772

《python源码剖析》笔记 python中的Dict对象

1.PyDictObject对象 --> C++ STL中的map是基于RB-tree的,搜索时间复杂度是O(logN) PyDictObject采用了hash表,时间复杂度是O(1) ...
  • zhsenl
  • zhsenl
  • 2014年06月15日 18:45
  • 753

生成源码字典的python脚本

 vim在编写C语言代码时,可以设置字典,以自动完成。:set dictionary=mydict 将其放到.vimrc中。在编辑模式,Ctrl+x,Ctrl+k即可以根据字典自动完成输入。将下面的脚...
  • ablo_zhou
  • ablo_zhou
  • 2008年04月09日 16:28
  • 1219

Python源码剖析[1] —— 编译Python

[ 绝对原创,转载请注明出处] 注意 :第一部分Python总体架构采用了网络文档《The Architecture of Python》,这是网络上唯一可见的以剖析Python实现为己任的文档。可惜...
  • balabalamerobert
  • balabalamerobert
  • 2005年12月31日 21:56
  • 8475

python 递归比较两个dict或json(相等,包含)

使用python经常会遇到对比dict和json相等问题。 1 比较两个json相等,先将json转换dict。然后进行比较。   转换的的方法:http://blog.csdn.net/qq_370...
  • qq_37023538
  • qq_37023538
  • 2017年01月12日 17:15
  • 4192

Python中Dict与Set对比总结

一 dict (list与tuple总结:点击打开链接) 我们已经知道,list 和 tuple 可以用来表示顺序集合,例如,班里同学的名字: ['Adam', 'Lisa', 'Bart'] ...
  • mhady
  • mhady
  • 2016年06月13日 23:34
  • 1979
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:《Python源码剖析》阅读笔记:第五章-dict对象
举报原因:
原因补充:

(最多只允许输入30个字)