哈希
像C++和Java这种高级语言,都提供了哈希(Hash)的集合库。Hash也是一种数据结构,这种数据结构的特点就是可以储存键值对,每个键都对应着一个值,可以通过键在Hash表中快速查找到这个键所对应的值。Hash表会预先申请一块比较大的内存,当向Hash表中添加键值对时,就直接存入在已经申请的内存中。通常,Hash需要一个Hash函数来确定这个值应该存放在哪里,因为在Hash表的底层数据结构中,还是用的线性表。由于不同的键,也就是不同的key,对应着这个key的value,那么就应该由这个key来确定value应该存放的位置,这个位置应该是一个地址下标。那么,Hash函数的作用就是根据这个key值,算出value应该存放位置的下标。由于函数可以存在当k1!=k2但Hash(k1)=Hash(k2)的情况,这样两个不同的key算出来的value存放的位置相同,就会起冲突,Hash表应该把每个value放在不同的位置。因此,这个Hash函数就决定了起冲突的概率。
通常这种函数有平方取中法、除留余数法、随机数法等等。当起冲突时,把这种冲突叫Hash冲突。当发现Hash冲突时,通常有开放定址法、链地址法、再哈希法和建立公共溢出区。
开放定址法的思想是如果发现Hash函数算出来的地址上已经有数据了,则用得到的这个地址hi加上一个di再对Hash表底层的线性表大小取模,如果得到的hi不是冲突的,那么再用上述方法再取一次模。右眼的di叫作增量序列,当di为一个线性序列时,这种取法叫作线性探测法,如果di是一个随机序列的话,就叫随机探测法。