《Python源码剖析》阅读笔记:第五章-dict对象

原创 2012年08月17日 09:15:16

第五章-dict对象

 Python里的dict和C++ STL的map一样,都是映射容器(key->value),但实现原理不同。由于Python内部大量使用dict这种结构(比如字符串对象的intese机制),效率要求很高,所以Python没有使用STL map的平衡二叉树,而采用哈希表,最低能在O(1)时间内完成搜索。
使用hash就必须解决冲突的问题,dict采用的是开放寻址法。原因我觉得是开放寻址法比拉链法能更好地利用CPU cache,cache命中率较高。
探测函数为 i = (i << 2) + i + perturb + 1; perturb每探测一次就除以2^5。

dict的哈希表里每个slot都是一个自定义的entry结构:
typedef struct {

Py_ssize_t me_hash;
PyObject *me_key;
PyObject *me_value;
} PyDictEntry;
意义顾名思义,不多说了。

每个entry有三种状态:Active, Unused, Dummy。
Unused:me_key == me_value == NULL,即未使用的空闲状态。
Active:me_key != NULL, me_value != NULL,即该entry已被占用
Dummy:me_key == dummy, me_value == NULL。
哈希探测结束的条件是探测到一个Unused的entry。但是dict操作中必定会有删除操作,如果删除时仅把Active标记成Unused,显然该entry之后的所有entry都不可能被探测到,所以引入了dummy结构。遇到dummy就说明当前entry处于空闲状态,但探测不能结束。这样就解决了删除一个entry之后探测链断裂的问题。

dict对象的定义为:
struct _dictobject {

PyObject_HEAD
Py_ssize_t ma_fill; /* # Active + # Dummy */
Py_ssize_t ma_used; /* # Active */

Py_ssize_t ma_mask;

PyDictEntry *ma_table;
PyDictEntry *(*ma_lookup)(PyDictObject *mp, PyObject *key, long hash);
PyDictEntry ma_smalltable[PyDict_MINSIZE];
};
ma_fill记录Active + Dummy状态的entry数。
ma_used记录Active状态的entry数。
ma_mask等于slot总数 - 1。因为一个key的哈希值很可能超过slot总数,所以作为索引时得把它约束在slot总数的范围内。而slot总数在定义的时候必须是2的乘幂,比如0x1000,所以减1之后就成了mask:0x111。再和hash做个&操作就能把索引之限制在0~0x111之间,即slot总数0x1000个,比较巧妙:)
ma_smalltable是默认的slot,初始有PyDict_MINSIZE个。
ma_table初始指向ma_smalltable,如果后期扩容,则指向新的slot空间。
ma_lookup为搜索函数指针

dict对象的创建很简单,先看看缓冲的对象池里有没有可用对象,如果有就直接用,没有就从堆上申请。把fill和used域设成0。由于Python中把字符串作为key的情况很多,所有搜索函数就有一个针对string优化过的版本:lookdict_string。如果在检查时发现key不是string对象,则调用默认的lookdict函数搜索。

dict的插入操作由insertdict函数完成。插入操作的意义是:如果不存在key-value则插入,存在则覆盖。所以先通过ma_lookup所指向的函数得到key所对应的entry。如果value不等于NULL,说明找到,将key指针替换。否则就直接在返回的entry上设置新的key-value对。
Python在处理d[key] = value这样的表达式的时候调用的是insertdict函数的包装函数PyDict_SetItem。PyDict_SetItem会计算key的哈希值,然后把需要的信息传递给insertdict。然后根据ma_table剩余空间的大小决定是否resize。传说和理论证明超过容量的2/3时冲突的概率大大增加,所以超过2/3后会进行扩容。

dict里entry的删除更简单,算出哈希值,找到entry,将其从Active转换成Dummy,并调整table的容量。

最后是对象池。和前面list对象池一样,dealloc时只回收table的内存,然后将dict放到池中,供后来new时再用。减少向堆申请内存的操作。


版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

《Python源码剖析》阅读笔记:第四章-list对象

第四章-list对象  list对象定义: typedef struct { PyObject_VAR_HEAD PyObject **ob_item; Py_ssize_t alloc...

《Python源码剖析》阅读笔记:第三章-字符串对象

第三章-字符串对象  字符串对象定义: typedef struct { PyObject_VAR_HEAD long ob_shash; int ob_sstate; char ob...

Python源码剖析-Dict

为了刻画某种关系,现代的编程语言都会提供关联式的容器。关联式容器中的元素分别是以(键(key)或值(value))这样的形式存在。例如(3,5)(3,6)就是一对对应的键与值。 Python中的关联...

Redis源码阅读笔记(3)-- 字典dict

字典是Redis的一种非常重要的底层数据结构,其应用非常广泛。Redis的数据库就是使用字典作为底层实现的,对数据库的增删查改也都构建在对字典的操作之上;字典也是hash键的底层实现之一,当一个哈希键...

Python笔记1——list,tuple,dict,set,不可变对象

list处理方法: len(list)获取list元素的个数 用索引访问list的元素——索引顺数从0开始,倒数从-1开始 list.append('A')追加元素A到list末尾 list....

STL源码剖析_读书笔记:第五章 关联式容器 红黑树篇

关联式容器 实现:红黑树,按照键值大小将元素放于适当位置 内部结构:平衡二叉树 含义:每个元素都有键值与实值 二叉搜索树:对数时间的元素插入和访问,节点键值大于左子树中每个节点键值,小于右子树...

python源码剖析笔记1——Python对象初见

python源码剖析笔记1——Python对象初见 工作整两年了,用python最多,然而对于python内部机制不一定都清楚,每天沉醉于增删改查的简单逻辑编写,实在耗神。很多东西不用就忘记了,比...

Python源码剖析笔记2-Python整数对象

Python源码剖析笔记2-Python整数对象本文简书地址: http://www.jianshu.com/p/0136ed90cd46 千里之行始于足下,从简单的类别开始分析,由浅入深也不至于...

【Redis源码剖析】 - Redis内置数据结构之字典dict

今天我们来讲讲Redis中的哈希表。哈希表在C++中对应的是map数据结构,但在Redis中称作dict(字典)。Redis只是用了几个简单的结构体和几种常见的哈希算法就实现了一个简单的类似高级语言中...

php源码之路第五章第七节 (对象)

对象是我们可以进行研究的任何事物,世间万物都可以看作对象。它不仅可以表示我们可以看到的具体事物,也可以表示那些我们看不见的事件等。对象是一个实体,它具有状态,一般我们用变量来表示,同时它也可以具有操作...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)