哈希表中数组的容量为什么是质数

哈希表中数组的容量为什么是质数

 

1HASH函数需要把原始数据均匀地分布到HASH数组里,比如大部分是偶数,这时候如果HASH数组容量是偶数,容易使原始数据HASH后不会均匀分布:

 

2 4 6 8 10 126个数,如果对 取余 得到 2 4 0 2 4 0 只会得到3HASH值,冲突会很多。如果对 7取余 得到 2 4 6 1 3 5 得到6HASH值,没有冲突。

 

同样地,如果数据都是3的倍数,而HASH数组容量是3的倍数,HASH后也容易有冲突,用一个质数则会减少冲突的概率,更分散。

 

哈希法要求表的容量是一个质数。为什么会有这个限制,假设表的容量不是质数,表长是15(坐标 0 - 14),有一个特别关键字映射到0,步长为5,探测序列为051005……,一直循环下去,算法只会尝试这三个单元,不可能找到其它空白单元,算法崩溃。

 

如果数组容量是13,即一个质数,那么探测序列会访问到所有单元。即051027124916113,一直下去,只要表中有一个空位,就可以探测到它。用质数作为数组容量使得任何数想整除它是不可能的,因此探测序列最终会检查到所有单元。

 

2只要hash function够好用什么值做桶的大小都行有时为了方便支持桶的动态扩张或者避免使用除法桶的大小使用2的幂(linux 内核就是使用2的幂). 质数在一般的情况下能够抵抗比较差的hash function,但是一般库都会提供基础的好的hash function, 你只要好好利用这些已有的hash function, 就不用苛求桶大小为质数.


展开阅读全文

没有更多推荐了,返回首页

©️2019 CSDN 皮肤主题: 编程工作室 设计师: CSDN官方博客
应支付0元
点击重新获取
扫码支付

支付成功即可阅读