散列表及统计文本字符次数练习

最新推荐文章于 2024-01-06 18:57:14 发布

qfbt

最新推荐文章于 2024-01-06 18:57:14 发布

阅读量362

点赞数 1

分类专栏：数据结构文章标签：算法数据结构 java

本文链接：https://blog.csdn.net/qingfengbitou/article/details/120749984

版权

本文介绍了散列表的概念，通过散列函数将键值映射到数组下标进行数据存储。文章详细阐述了散列冲突的解决方法，包括开放寻址法（线性探测、二次探测、双重散列）和链表法，并讨论了装载因子在冲突处理中的作用。文章最后提出了用散列映射统计文本中字符出现次数的小练习。

摘要由CSDN通过智能技术生成

一、散列表是什么？

散列表的英文为“Hash Table”,也叫哈希表，ta 用的是数组支持按照下标随机访问数组的特性，所以说散列表就是数组的一种拓展。

我们通过散列函数把键值映射为下标，然后将数据存储在数组中对应下标的位置当我们按照键值查询元素时，我们相同的散列函数将键值转化为数组下标，从相应的数组下标位置取出数据。

二、散列函数

散列函数，我们可以将其定义成hash(key),其中key表示元素的键值，hash（key）的值表示经过散列函数计算后的散列值。

以下为散列函数的设计要求：

散列函数计算得到的散列值为非负整数；
如果key1 = key2,则hash(key1) == hash(key2);
如果key1 ≠ key2,则hash(key1）！=hash（key2）。

三、散列冲突

1.开放寻址法

开放寻址法的核心思想是，如果出现了散列冲突，就重新探测一个空闲位置，将其插入。那如何重新探测新的位置呢？有比较简单的探测方法——线性探测法。即当需要往散列表中插入数据时，如果某个数据经过散列函数散列之后，存储位置已经被占用了，我们就从当前位置开始，依次往后查找，看是否有空闲位置，直到找到为止。

散列表跟数组一样，不仅支持插入、查找操作，还支持删除操作。对于使用线性探测法解决冲突的散列表，删除操作稍微有些特别。我们不能单纯地把要删除的元素设置为空。这是因为在查找的时候，一旦通过线性探测方法找到一个空闲的位置，就可以认定散列表中不存在这个数据。但是，如果这个空闲位置是后来删除的，就会导致原来的查找算法失效。本来存在的数据，会被认定为不存在。

为了避免这样的问题发生，我们可以将删除的元素，特殊标记为deleted。当线性探测查找的时候，遇到标记为 deleted 的空间，并不是停下来，而是继续往下探测。

其实，仔细思考以后你会发现，线性探测法其实存在很大问题。当散列表中插入的数据越来越多时，散列冲突发生的可能性就会越来越大，空闲位置会越来越少，线性探测的时间就会越来越久。极端情况下，我们可能需要探测整个散列表，所以最坏情况下的时间复杂度为O(n)。同理，在删除和查找时，也有可能会线性探测整张散列表，才能找到要查找或者删除的数据。

对于开放寻址冲突解决方法，除了线性探测方法之外，还有另外两种比较经典的探测方法，二次探测（Quadratic probing）和双重散列（Double hashing），对于这两个方法就不详细讲述了。

不管采用哪种探测方法，当散列表中空闲位置不多的时候，散列冲突的概率就会大大提高。为了尽可能保证散列表的操作效率，一般情况下，我们会尽可能保证散列表中有一定比例的空闲槽位。我们用装载因子（load factor）【散列表的装载因子 = 填入表中的元素个数 / 散列表的长度】来表示空位的多少。装载因子越大，说明空闲位置越少，冲突越多，散列表的性能会下降。

当数据量比较小、装载因子小的时候，适合采用开放寻址法。