散列是一种用于以常数平均时间执行插入、删除和查找的技术。例如findmin、findmax和以线性时间将排过序的整个表进行打印的操作都是散列锁不支持的。
- 理想的散列表数据结构只不过是一个包含一些项的具有固定大小的数组。
- 我们把表的大小记作TableSize,表从0~TableSize-1变化。
- 每个关键字被映射到从0到TableSize-1这个范围中的某个数,并且被放到适当的单元中,这个映射叫散列函数。
散列函数:
- 如果输入的关键字是整数,则一般合理的方法就是直接返回Key mod TableSize,除非Key碰巧具有某些不合乎需要的性质
- 通常输入的关键字是字符串,一种选择方案是把字符串中的字符的ASCII码(或Unicode码)值加起来。
PS:当两个关键字散列到同一个值的时候(冲突),应该做什么?
解决冲突最简单的2种方法:分离链接法,开放定址法
1. 分离链接法:
将散列到同一个值的所有元素保留到一个表中。(可以使用标准库表实现)
散列表存储一个链表数组,新元素插入到链表的前端,如果允许插入重复的元素,需要流出一个额外的域,这个域当出现匹配事件时,增加1。通常这种散列表的装填因子为1。
2. 探测散列表(开放定址