散列表
- 定义
散列表是根据(key value)来直接进行访问的数据结构。它通过把关键码应射雕一个数组中的一个位置来访问记录,以加快查找的速度。这个映射的函数叫散列函数。存放记录的数组叫做散列表
- 散列能做什么
例如word的单词拼写检查功能,假设有一百万个单词,每个单词平局长度为10个字母,也就是占用十字节的空间。100万个单词四舍五入也就是占用10M的空间。我们将其映射到散列表中。当用户输入时就去散列表中查找。如果查不到,则说明拼写错误予以提示。
- 散列函数
散列函数,顾名思义他是一个函数。我们可以把它定义成hash(key),其中key表示元素的键值,hash(key)的值表示经过散列函数计算得到的散列值。
- 构造散列函数的要求
- 散列函数计算得到的散列值是一个非负整数
- 如果key1 = key2,那hash(key1) == hash(key2)
- 如果key1 != key2, 那hash(key1) != hash(key2)
- 尽量的简单,速度快
- 散列表长度尽量为素数。这样可以使映射分配均匀
假设有两个散列表,a表长度为7,b表长度为8,步长为2的产生数据。假设数据只到1000
那么a表分布为
b表分布为
可以非常明显地看到,a表均匀的分布。但是b表堆积明显
- 散列冲突
如果key1 != key2, 那hash(key1) == hash(key2),我们称之为散列冲突。想要避免散列冲突几乎不可能。即使MD5、SHA、CRC等哈希算法,也无法完全避免散列冲突。
- 散列冲突的解决
- 分离链接法
简单来说就是再原有的散列表后加上链表来存放散列冲突的元素。
优点:
可以解决任意次冲突
删除操作简单、统一
缺点:
耗费内存
空间并不连续,缓存几乎失效
- 线性探测法
当散列表插入数据遇到冲突时,将其放入下一个空闲地址。
线性探测的效率视装填因子大小而定
(装填因子 = 填入表中元素个数 / 散列表的长度)
- 平方探测法
当散列冲突时查找1^2远(+-1)处是否为空,如果还冲突则找2^2远处以此类推。
定理:如果使用平方探测,且表的大小为素数,那么当表至少有一半是空的时候,总能够插入一个新的元素
- 双散列
双散列可以看做F(i)= i * hash2( x ) 其基本策略和线性探测法一项,唯一不同是:它不是检查冲突位置后的每一个位置,而是采用另一个散列函数产生一个固定的增量。
注:第二个散列函数要仔细选择,需满足条件
(1)排除散列值是0的情况
(2)产生的散列值必须与表长M互素
七、散列优化
1、再散列
当装载因子过大时,操作时间将开始过长,插入操作可能失败。解决办法是,新建个大约长度为散列表两倍的新表,扫描整个原始散列,计算所有元素新的散列值插入新的散列表中。
- 链接法缺陷解决
如果分离链接法链表过长,会严重影响性能,链表就要转为红黑树(一般再长度为8时转成红黑树),利用红黑树快速增删改查的特点,
提高性能