一、哈希表(散列表)
散列表,也称哈希表,是一种实现字典操作的有效数据结构。它用一个散列函数把一个数对映射到一个哈希表的具体位置。如果数对p 的关键字是k,散列函数为f,那么理想情况下,p在散列表中的位置为 f(k)。
暂时假定散列表的每一个位置最多能够存储一个记录,这种情况也称为直接寻址表。当关键字的全域U比较小时,直接寻址是一种简单有效的技术。直接寻址表如下图11-1所示。
但是如果关键字的范围太大,使用上面的技术就有些不太合适。因此我们可以找到一个散列函数 f 可以把不同的关键字 k 映射到相同的地方进行存储,如下图11-2所示。当遇到不同的关键字映射到一个地方时,我们称之为发生冲突。我们可以采用链接法和开放寻址法来解决冲突的问题。
在链接法中,把散列到同一个槽的所有元素都放在一个链表中,而在哈希表的槽中存放的是一个指针,它指向存储所有散列到该位置的元素的链表的表头。如果不存在这样的元素,槽中为NULL。链接法解决冲突如下图:
在开放寻址法中,所有元素都要存放在散列表中。也即是说,每一个表项或包含一个元素,或包含空。当查找某个元素时,要系统的检查所有的表项,直到找到所需的元素,或者最终查明不在表内。不像链接法,这里既没有链表,也没有元素存放在散列表外。因此在开放寻址法中,散列表可能会被装满。为了找到插入元素的位置,当出现冲突时,我们要根据某种方式检查散列表,或称之为探查,直到找到一个空槽来放置待插入的关键字为止。关于探查的方法,在下一节讨论
二、散列函数
一个好的散列函数应尽可能满足均匀散列的特点:每一个关键字都被等可能的散列到m个槽位中的任何一个,并且与其他关键字已散列到哪个槽位无关。
除法散列法,通过取 k 除以 m 的余数,将关键字散列到 m 个槽位中,散列函数为 h (k) = k mod m。这种方式m的取值非常重要,一个好的 m 取值为一个(不太接近2的整数幂)的素数。
乘法散列法包含两个步骤。第一步,用关键字 k 乘上常数 A(0<A&l