数据结构与算法——散列表（使用实例剖析原理）

undead_turtle

已于 2023-11-11 09:28:20 修改

阅读量190

点赞数 4

分类专栏：数据结构文章标签：哈希算法算法散列表

于 2023-11-11 00:09:11 首次发布

本文链接：https://blog.csdn.net/undead_turtle/article/details/134343151

版权

数据结构专栏收录该内容

1 篇文章 0 订阅

订阅专栏

散列表(Hash Table)

先举个简单的例子说明什么是散列表（例子来源于《算法图解》）：

假设你是一家商店的收银员，你有一张表格，上面有你所在商店的所有商品的价格。现在有一个人来问你苹果多少钱。如果这个表格不是顺序排序的话，那你就只能使用简单查找（一行一行的对照），需要时间为 $O (n)$ ；如果这个表格是按照a~z的顺序排列的，那你就可以使用二分查找，这样速度会大大提升，为 $O(\ln{n})$ 。但是，如果顾客比较多的时候，你的速度还是很慢，没办法满足顾客的需求。于是，你就想，能不能找一个店员（假设他的名字张三），他能够记住所有商品的价格，这样当有人来结账时，他可以直接说出商品的价格，不需要查找那张表格，所需要的时间为 $O (1)$ 。那怎样才能雇到张三呢？散列表就发挥了这样的作用。

1. 散列函数

1.1构建

先想一下简单的数据结构里面哪一个查找速度为 $O (1)$

大抵是只有数组了吧！数组可以通过地址查找，不需要时间，直接可以返回某个地址的值是多少。所以，我们要实现散列表也是这样，给你一个苹果，直接返回苹果的价格。但是好像没有这样的数据结构可以吧，那怎么办呢？

我们不妨变换一下思路，一个新的数据结构创造不出来，我们就对已有的进行改进。如果我们输入一个商品，可以直接给我们返回一个地址，那我们在通过这个地址是不是直接就可以得到一个数据，将这个数据设为这个商品的价格，那我们是不是就可以通过商品名称直接得到商品的价格了呢。

OK，思路现在已经有了，所以现在的关键是怎么通过一个商品得到一个地址呢？从一个东西得到另一个东西，是不是很容易就能想到函数。函数的输入与输出之间是一一对应的关系，这不正好满足我们的要求，而且，由于一个商品是能有一个价格，所以每个商品都应该对应一个地址，不能出现一个商品对应多个地址，这也正好和函数符合，一个输入只能得到一个输出。

OK，现在方法也找到了，接下来就是找函数了，举个简单的例子：

我们的商店现在只有梨、苹果、水蜜桃、草莓牛奶、尼泊尔军刀这五种商品，那我们怎么创建一个函数，让这五个商品分别得到五个地址呢？很明显，我们可以使用 $y = l e n (x) - 1$ ，这个函数，其中 $y$ 是输出的地址， $x$ 是商品的名称， $l e n (x)$ 是商品名称的长度，那这样上面五个商品通过这个函数是不是都得到了唯一地址0，1，2，3，4。然后我们可以创建一个数组，在对应地址上写入对应商品的价格，这样，我要查找尼泊尔军刀的价格的时候，我们就可以先通过函数 $y = l e n (x) - 1$ 计算出他的地址是4，然后通过数组直接得出地址为4的数据，也就是尼泊尔军刀的价格了

上面这个函数我们就把他叫做散列函数，散列函数家加上这个数组就创建成了一个新的数据结构散列表（其实就是新壶装旧酒）

散列函数先就说这么多（更进一步等我有时间在写🐶），具体的散列函数肯定不会是这样的，毕竟商品的数量很多，用这个散列函数只能存放几个商品的价格，总不能为了用散列表，将商品的名字改为“达拉崩吧斑得贝迪卜多比鲁翁”吧，就算改成这样也只能存放13个商品

这里给一个最常用的散列函数f(key) = key mod p (p<=m)，mod是取模（求余数），key是关键字（例子中商品的名称），m是散列表的长度，p是自己选取的数，p的选取会影响散列表的质量，具体的有时间再写

1.2冲突

OK，接着看我们这个例子，我们现在有五个商品，然后散列函数为 $y = l e n (x) - 1$ ，但是，最近发现菠萝卖的很好，商店打算进一批菠萝来卖，那肯定要将菠萝加入散列表中方便查找他的价格，但是，菠萝通过散列函数计算的地址为1，与苹果是一样的，我们把这种情况叫做冲突(collision)，那该怎么办呢？

诶，是不是可以把苹果和菠萝的名称和价格都存在这个位置，然后如果需要查找他们俩的任何一个，我看一下就可以了，这样也很快呀（这个方法记为方法一）那还有没有其他的方法呢？

苹果是先进的货，菠萝是后来的，怎么敢跟苹果抢位置的啊，先来后到，菠萝排后面去，01234的位置上都已经有人了，菠萝去5那吧（这个记为方法二）

菠萝不愿意滚后边去，来和苹果抢，怎么办，让你俩抢，给你俩单独拉小黑屋去，将产生冲突的单独在创建一个散列表存放（这个记为方法三）

方法一

在冲突的位置上创建一个链表，如果遇到冲突了就来在链表上遍历查找
方法二

一旦发生冲突就去寻找下一个空的散列地址，只要散列表足够大，空的散列地址总能找到，并将价格存入。但是它会出现堆积的问题：某一个商品因为冲突去了下一个位置，但它去的位置是后面又新进的商品的对应位置。也就是说，两个本来就是名称一样长的商品要去争夺一个地址的情况
方法三

把产生冲突商品的单独拉走，创建一个溢出表来存放他们（用新的散列函数来得到地址，别再发生冲突），查价格的时候先去开始的散列表查找，如果找不到，就去溢出表查找

这些解决冲突的方法都可以用C语言去自己实现，等什么时候有时间，我再给这些都写出来，现在就不写了🐶

1.3小问题

下面哪些函数可以作为散列函数？（选自《算法图解》）

$f (x) = 1$
f(x) = rand() # 每次都返回一个随机数
$f (x) = l e n (x)$

答案到时给在评论区吧

2.应用案例（python代码实现实际问题）

2.1将散列表用于查找

用散列表创建一个电话簿

# python提供了一种创建散列表的快捷方式——使用一对大括号
phone_number_book = {}

phone_number_book["jenny"] = 10086
phone_number_book["Mike"] = 12315

print(phone_number_book["Mike"])    # 12315

tmd，python真简单，等有时间给写一个用C实现的散列表吧，C可以了解散列表的原理

我们平时用网址访问网站也可以使用散列表来实现，例如：

使用https://www.google.com/来访问Google的时候，计算机必须将这个网址转换为IP地址

这不就是将网址映射到IP地址上吗，这个过程被称为DNS解析(DNS resolution)，散列表是提供这种功能的方式之一（上面这个IP我不知道是不是对的啊，不要去试）

2.2防止重复

如果你负责一个投票，一人只能投一票，如何避免重复投票呢？

还是使用散列表，只不过将第一个例子中的价格换成了投过(true)

# 创建一个散列表，用于记录已投票的人
voted = {}

# 有人来投票时，检查他是否在散列表中
# 在则kick them out，不在则加进去
def check_voter(name):
    if voted.get(name):
        print("Kick them out!")
    else:
        voted[name] = True
        print("Let them vote!")

# 测试
check_voter("tom")  # Let them vote!
check_voter("zhangsan") # Let them vote!
check_voter("tom")  # Kick them out!

undead_turtle

关注

4
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
数据结构与算法——散列表（使用实例剖析原理）

先举个简单的例子说明什么是散列表（例子来源于《算法图解》）：假设你是一家商店的收银员，你有一张表格，上面有你所在商店的所有商品的价格。现在有一个人来问你苹果多少钱。如果这个表格不是顺序排序的话，那你就只能使用简单查找（一行一行的对照），需要时间为On；如果这个表格是按照a~z的顺序排列的，那你就可以使用二分查找，这样速度会大大提升，为Olnn。但是，如果顾客比较多的时候，你的速度还是很慢，没办法满足顾客的需求。
复制链接

扫一扫