Hash Table，Hash Map是怎么来的？

最新推荐文章于 2020-11-18 18:09:38 发布

Instein98

最新推荐文章于 2020-11-18 18:09:38 发布

阅读量150

点赞数 1

本文链接：https://blog.csdn.net/Instein98/article/details/104635278

版权

原教程地址：https://www.youtube.com/watch?v=KyUTuwz_b7Q

Hash Table，Hash Map是怎么来的？

Introduction
- - 问题引入
  - 尝试解决
Hashing Algotithm
Collision Resolution
- - Open Addressing
  - Closed Addressing
Design Hash Functions

Introduction

问题引入

在一个名字数组找名字Ada，需要遍历整个数组，复杂度 O(n) 。
如果我们知道Ada的索引，就可以 O(1) 直接找到Ada。
能不能构建一个函数，输入一个名字，输出得到索引？
这样要是查找一个名字，我们就可以直接算出索引，根本就不需要遍历！
在这里插入图片描述

尝试解决

我们采取这样的办法：

把每个名字的每个字母的ASCII码值加起来，得到一个数值
把这个数值对数组长度取模，得到一个index
把这个名字放到这个数组对应的index位置上

这样不管你要找什么名字，我直接通过计算就能知道它在哪里。搜索的时间复杂度是O(1)。
如果数组里存的是键值对，就类似于我们日常用的哈希表了。显然这里是把一个字符串当成了key。

Hashing Algotithm

把一个key映射到一个内存地址的算法。

对于整数类型的key，可以直接通过把key的值对可用地址的数目n进行取模。
对于字符串类的key，可以把每个字符的ASCII码之和对n取模。
还有一类 Folding Method，把key分成等量的部分，把每个部分计算的值加起来对n取模，比如把电话号码12345678拆成 12 34 56 78。

Collision Resolution

显然有一个问题上面没有提及，如果有多个key计算出来的地址是一样的怎么办？？
显然，要存的东西越多，可用的内存地址越少，越容易出现这种情况。我们用一个指标来衡量这种情况的严重性：
$\frac{要存的东西的总数}{可用内存的数量}$
$L o a d F a c t o r$ 越大，越容易出现冲突。
为了解决这个问题，出现了两类解法：

Open Addressing

叫Open是因为此类方法，每个内存地址对所有的要存的内容是开放的。也就是说，即使我发生冲突了，我可以存到别的地址上。

Linear Probing
如果我发现计算得到的内容地址上已经有值了，我就去找下一个地址，直到找到空地址就存。查找时如果计算出的地址上不是我要的key，我就往下找直到找到我的key。这种方法最差的情况还是会遍历整个数组。
Plus 3 Rehash
每次出现冲突，不停地找后面第三个地址有没有空位。
Quadratic Probing
出现冲突，往后找失败次数的平方个位置。
Double Hashing
出现冲突时，使用Second Hashing Function，得到该key下一次查找的步长。

Closed Addressing

叫Closed是因为此类方法，每个内存地址只对能通过哈希函数得到该地址的key开放。即使我发生冲突了，我也不能去占用别的地址。

Chaining Method
每个数组的位置指向一个链表的头部。出现冲突时，在此处链表的尾部加上要存的内容即可。

Design Hash Functions

尽可能减少冲突
使要存的内容尽量均匀分布在可用内存上
哈希函数要尽量容易计算
要能够处理冲突问题

Instein98

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hash Table，Hash Map是怎么来的？

原教程地址：https://www.youtube.com/watch?v=KyUTuwz_b7QHash Table，Hash Map是怎么来的？Introduction问题引入尝试解决Hashing AlgotithmCollision ResolutionOpen AddressingClosed AddressingDesign Hash FunctionsIntroduction问...
复制链接

扫一扫