散列表（上）：Word文档中的单词拼写检查功能是如何实现的？

最新推荐文章于 2023-05-17 15:06:00 发布

ru-willow

最新推荐文章于 2023-05-17 15:06:00 发布

阅读量166

点赞数

分类专栏：学习笔记文章标签：数据结构散列表 hash

本文链接：https://blog.csdn.net/qq_39630875/article/details/110622763

版权

学习笔记专栏收录该内容

45 篇文章 0 订阅

订阅专栏

散列表

1、散列表的由来

散列表来源于数组，它借助散列函数对数组这种数据结构进行扩展，利用的是数组支持按照下标随机访问元素的特性。

2、散列函数的设计

我们把参编号转化为数组下标的映射方法就叫作散列函数（或“Hash 函数”“哈希函数”），而散列函数计算得到的值就叫作散列值（或“Hash 值”“哈希值”）。
在这里插入图片描述
散列函数设计的基本要求：
★ 散列函数计算得到的散列值是一个非负整数；
★ 如果 key1 = key2，那 hash(key1) == hash(key2)；
★ 如果 key1 ≠ key2，那 hash(key1) ≠ hash(key2)。

3、散列冲突解决

①开放寻址法

开放寻址法的核心思想是，如果出现了散列冲突，我们就重新探测一个空闲位置，将其插入。
★ 线性探测
在这里插入图片描述
从图中可以看出，散列表的大小为 10，在元素 x 插入散列表之前，已经 6 个元素插入到散列表中。x 经过 Hash 算法之后，被散列到位置下标为 7 的位置，但是这个位置已经有数据了，所以就产生了冲突。于是我们就顺序地往后一个一个找，看有没有空闲的位置，遍历到尾部都没有找到空闲的位置，于是我们再从表头开始找，直到找到空闲位置 2，于是将其插入到这个位置。
在散列表中查找元素
在这里插入图片描述
在散列表中删除元素
我们可以将删除的元素，特殊标记为 deleted。当线性探测查找的时候，遇到标记为 deleted 的空间，并不是停下来，而是继续往下探测。

★二次探测
所谓二次探测，跟线性探测很像，线性探测每次探测的步长是 1，那它探测的下标序列就是 hash(key)+0，hash(key)+1，hash(key)+2……而二次探测探测的步长就变成了原来的“二次方”，也就是说，它探测的下标序列就是 hash(key)+0，hash(key)+ $1^2$ ，hash(key)+ $2^2$ ……

★双重散列
不仅要使用一个散列函数。我们使用一组散列函数 hash1(key)，hash2(key)，hash3(key)……我们先用第一个散列函数，如果计算得到的存储位置已经被占用，再用第二个散列函数，依次类推，直到找到空闲的存储位置。

② 链表法

在散列表中，每个“桶（bucket）”或者“槽（slot）”会对应一条链表，所有散列值相同的元素我们都放到相同槽位对应的链表中。
在这里插入图片描述
当插入的时候，我们只需要通过散列函数计算出对应的散列槽位，将其插入到对应链表中即可，所以插入的时间复杂度是 O(1)。当查找、删除一个元素时，我们同样通过散列函数计算出对应的槽，然后遍历链表查找或者删除。

4、Word 文档中单词拼写检查功能是如何实现的？

采用散列表的查找功能
常用的英文单词有 20 万个左右，假设单词的平均长度是 10 个字母，平均一个单词占用 10 个字节的内存空间，那 20 万英文单词大约占 2MB 的存储空间，就算放大 10 倍也就是 20MB。对于现在的计算机来说，这个大小完全可以放在内存里面。所以我们可以用散列表来存储整个英文单词词典。
当用户输入某个英文单词时，我们拿用户输入的单词去散列表中查找。如果查到，则说明拼写正确；如果没有查到，则说明拼写可能有误，给予提示。借助散列表这种数据结构，我们就可以轻松实现快速判断是否存在拼写错误。

ru-willow

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
散列表（上）：Word文档中的单词拼写检查功能是如何实现的？

散列表1、散列表的由来散列表来源于数组，它借助散列函数对数组这种数据结构进行扩展，利用的是数组支持按照下标随机访问元素的特性。2、散列函数的设计我们把参编号转化为数组下标的映射方法就叫作散列函数（或“Hash 函数”“哈希函数”），而散列函数计算得到的值就叫作散列值（或“Hash 值”“哈希值”）。散列函数设计的基本要求：★ 散列函数计算得到的散列值是一个非负整数；★ 如果 key1 = key2，那 hash(key1) == hash(key2)；★ 如果 key1 ≠ key2，那
复制链接

扫一扫