哈希表中数组的容量为什么是质数
1、HASH函数需要把原始数据均匀地分布到HASH数组里,比如大部分是偶数,这时候如果HASH数组容量是偶数,容易使原始数据HASH后不会均匀分布:
2 4 6 8 10 12这6个数,如果对 6 取余 得到 2 4 0 2 4 0 只会得到3种HASH值,冲突会很多。如果对 7取余 得到 2 4 6 1 3 5 得到6种HASH值,没有冲突。
同样地,如果数据都是3的倍数,而HASH数组容量是3的倍数,HASH后也容易有冲突,用一个质数则会减少冲突的概率,更分散。
哈希法要求表的容量是一个质数。为什么会有这个限制,假设表的容量不是质数,表长是15(坐标 0 - 14),有一个特别关键字映射到0,步长为5,探测序列为0、5、10、0、5……,一直循环下去,算法只会尝试这三个单元,不可能找到其它空白单元,算法崩溃。
如果数组容量是13,即一个质数,那么探测序列会访问到所有单元。即0、5、10、2、7、12、4、9、1、6、11、3,一直下去,只要表中有一个空位,就可以探测到它。用质数作为数组容量使得任何数想整除它是不可能的,因此探测序列最终会检查到所有单元。
2、只要hash function够好, 用什么值做桶的大小都行. 有时为了方便支持桶的动态扩张或者避免使用除法, 桶的大小使用2的幂(linux 内核就是使用2的幂). 质数在一般的情况下能够抵抗比较差的hash function,但是一般库都会提供基础的好的hash function, 你只要好好利用这些已有的hash function, 就不用苛求桶大小为质数.