在目前的教材中,一般没有给出具体证明,只给出O(1+a)的一个近似证明。
我给出一个较为准确的证明,如下:
在一个长度为N的查找表中,查找失败时,平均查找长度是N+1,即找到第N+1个位置(查找完毕)才确定查找失败了。
拉链法同样如此,a表示N/M,即装载因子,也是每个entry的平均长度,而根据顺序查找表,不得出查找失败需要a+1。
但是否可以量化的进行一下证明呢?
首先,N个变量,M个entry,可以看做N个不同的球,放在M个不同的盒中,允许有空盒的情况。
不难得出方案数为MN,对于任意个变量,被hash到MN*M种可能的entry中,那么平均情况下的查找次数呢?
计算过程如下:
通过一个具体的例子可以得出这样求解的正确性:
假定有2个变量,分别为a,b,有4个entry(盒子),分别标记为1,2,3,4
则一共有16种可能的方案,如下:
11 21 31 41
12 22 32 42
13 23 33 43
14 24 34 44
其中11表示:a-1、b-1;21表示:a-2、b-1,余不举例。
不难得到,可能的entry共计42*4=64种。
方案中entry为空的数目为:
同理:
entry有1个变量的数目为:24
entry有2个变量的数目为:4
则,一次查询失败的平均探查次数为(36*1+24*2+4*3)/64 = 1.5
同时1+n/m = 1.5