Hash,一般翻译做“散列”,也有直接音译为“哈希”的,就是把任意长度的输入(又叫做预映射, pre-image),通过散列算法,变换成固定长度的输出,该输出就是散列值。这种转换是一种压缩映射,也就是,散列值的空间通常远小于输入的空间,不同的输入可能会散列成相同的输出,所以不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数
为什么用散列
散列对插入,删除和检索等操作的时间复杂度可以达到O(1) 尽管散列在最差情况下仍然是O(n)
散列的组成部分
1.散列表
散列表是一种数据结构,用以储存关键字以及其关联的值,散列表利用散列函数将关键字映射到其关联的值
2.散列函数
散列函数用于将关键字装换为索引,理想情况下,删了函数应该将每个可能的关键字映射到唯一的槽索引,但在实践中难以实现。
散列函数的方法
1.直接定址法
2.数字分析法
3.平方取中法
取关键字平方后的中间几位为哈希地址。
4.折叠法
将关键字分割成位数相同的几部分(最后一部分的位数可以不同),然后取这几部分的叠加和(舍去进位)作为哈希地址,这方法称为折叠法。
5.除留余数法
取关键字被某个不大于哈希表表长m的数p除后所得余数为哈希地址。
H(key)=key MOD p (p<=m)
6.等等
3.冲突
散列数组用于将每个关键字映射到不同的地址空间,但当无法创建一个将每个关键字映射到不同地址的散列函数称为发生了冲突,冲突是指两个记录储存在相同的位置的情况
4.冲突解决的常用技术
分离链式法
平方探测法
双平方探测法
这里先介绍分离链式法
分离链式法 就是将散列表结合链表来实现
当两个或多个记录散列到相同位置时,这些记录将构成链表
实现代码
//分离链接法
/*
* 为执行一次查找,我们使用散列函数来确定究竟遍历哪个链表
* 然后我们在被确定的链表中执行一次查找。为执行insert 我们检查相应的链表看看该元素是否已经处在合适位置。
*
*/
public class SeparateChainingHashTab