想要理解Python里字典和集合类型的长处和弱点,他们背后的散列表是绕不开的一环
理解以下几个问题
- Python里的dict和set的效率有多高?
- 为什么他们是无序的?
- 为什么并不是所有的python对象都可以当做dict和键或者set的元素?
- 为什么dict的键和set的元素是根据他们被添加元素的次序而定的,以及为什么在映射的生命周期中,这个顺序并不是一成不变的?
- 为什么不应该在迭代循环dict或者set的同时添加元素?
一丶字典中的散列表
散列表其实是一个稀疏数组(总是空白元素的数组成为稀疏数组)。在一般的数据结构教材中,散列表的单元通常叫做表元(bucket)。在dict的散列表当中,每个键值对都占用一个表元,每个表元都有两个部分,一个是对键的引用,一个是对值得引用,因为所有表元的大小一致,所以可以通过偏移量来读取表元。
因为Python会设法保证三分之一的表元是空的,所以在快要达到阈值的时候,原有的散列表会被复制到一个更大的空间。如果要把一个对象放入散列表,那么首先要计算这个元素键的散列值,python用hash方法做这件事情。
1.散列值和相等性
内置的hash()方法可以用于所有的内置对象。如果自定义对象调用hash()方法,实际上运行的是自定义的__hash__方法,如果两个对象在比较的时候是相等的,那么散列值必然相等,否则散列表就不能正常运行了。
In [1]: a = 1
In [2]: b = 1.000
In [