数据结构和算法----散列表

散列表

  • 定义

散列表是根据(key value)来直接进行访问的数据结构。它通过把关键码应射雕一个数组中的一个位置来访问记录,以加快查找的速度。这个映射的函数叫散列函数。存放记录的数组叫做散列表

  • 散列能做什么

例如word的单词拼写检查功能,假设有一百万个单词,每个单词平局长度为10个字母,也就是占用十字节的空间。100万个单词四舍五入也就是占用10M的空间。我们将其映射到散列表中。当用户输入时就去散列表中查找。如果查不到,则说明拼写错误予以提示。

  • 散列函数

散列函数,顾名思义他是一个函数。我们可以把它定义成hash(key),其中key表示元素的键值,hash(key)的值表示经过散列函数计算得到的散列值。

  • 构造散列函数的要求
  1. 散列函数计算得到的散列值是一个非负整数
  2. 如果key1 = key2,那hash(key1) == hash(key2)
  3. 如果key1 != key2, hash(key1) != hash(key2)
  4. 尽量的简单,速度快
  5. 散列表长度尽量为素数。这样可以使映射分配均匀

假设有两个散列表,a表长度为7b表长度为8,步长为2的产生数据。假设数据只到1000

那么a表分布为

b表分布为

可以非常明显地看到,a表均匀的分布。但是b表堆积明显

  • 散列冲突

如果key1 != key2, hash(key1) == hash(key2),我们称之为散列冲突。想要避免散列冲突几乎不可能。即使MD5SHACRC等哈希算法,也无法完全避免散列冲突。

  • 散列冲突的解决
  1. 分离链接法

简单来说就是再原有的散列表后加上链表来存放散列冲突的元素。

优点:

可以解决任意次冲突

删除操作简单、统一

缺点:

耗费内存

空间并不连续,缓存几乎失效

  1. 线性探测法

当散列表插入数据遇到冲突时,将其放入下一个空闲地址。

线性探测的效率视装填因子大小而定

(装填因子 = 填入表中元素个数 / 散列表的长度)

  1. 平方探测法

当散列冲突时查找1^2远(+-1)处是否为空,如果还冲突则找2^2远处以此类推。

定理:如果使用平方探测,且表的大小为素数,那么当表至少有一半是空的时候,总能够插入一个新的元素

  1. 双散列

双散列可以看做Fi= i * hash2( x ) 其基本策略和线性探测法一项,唯一不同是:它不是检查冲突位置后的每一个位置,而是采用另一个散列函数产生一个固定的增量。

注:第二个散列函数要仔细选择,需满足条件

1)排除散列值是0的情况

2)产生的散列值必须与表长M互素

七、散列优化

     1、再散列

        当装载因子过大时,操作时间将开始过长,插入操作可能失败。解决办法是,新建个大约长度为散列表两倍的新表,扫描整个原始散列,计算所有元素新的散列值插入新的散列表中。

  1. 链接法缺陷解决

如果分离链接法链表过长,会严重影响性能,链表就要转为红黑树(一般再长度为8时转成红黑树),利用红黑树快速增删改查的特点,

提高性能

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值