散列表(Hash Table)
先举个简单的例子说明什么是散列表(例子来源于《算法图解》):
假设你是一家商店的收银员,你有一张表格,上面有你所在商店的所有商品的价格。现在有一个人来问你苹果多少钱。如果这个表格不是顺序排序的话,那你就只能使用简单查找(一行一行的对照),需要时间为 O ( n ) O(n) O(n);如果这个表格是按照a~z的顺序排列的,那你就可以使用二分查找,这样速度会大大提升,为 O ( ln n ) O(\ln{n}) O(lnn)。但是,如果顾客比较多的时候,你的速度还是很慢,没办法满足顾客的需求。于是,你就想,能不能找一个店员(假设他的名字张三),他能够记住所有商品的价格,这样当有人来结账时,他可以直接说出商品的价格,不需要查找那张表格,所需要的时间为 O ( 1 ) O(1) O(1)。那怎样才能雇到张三呢?散列表就发挥了这样的作用。
1. 散列函数
1.1构建
先想一下简单的数据结构里面哪一个查找速度为 O ( 1 ) O(1) O(1)
大抵是只有数组了吧!数组可以通过地址查找,不需要时间,直接可以返回某个地址的值是多少。所以,我们要实现散列表也是这样,给你一个苹果,直接返回苹果的价格。但是好像没有这样的数据结构可以吧,那怎么办呢?
我们不妨变换一下思路,一个新的数据结构创造不出来,我们就对已有的进行改进。如果我们输入一个商品,可以直接给我们返回一个地址,那我们在通过这个地址是不是直接就可以得到一个数据,将这个数据设为这个商品的价格,那我们是不是就可以通过商品名称直接得到商品的价格了呢。
OK,思路现在已经有了,所以现在的关键是怎么通过一个商品得到一个地址呢?从一个东西得到另一个东西,是不是很容易就能想到函数。函数的输入与输出之间是一一对应的关系,这不正好满足我们的要求,而且,由于一个商品是能有一个价格,所以每个商品都应该对应一个地址,不能出现一个商品对应多个地址,这也正好和函数符合,一个输入只能得到一个输出。
OK,现在方法也找到了,接下来就是找函数了,举个简单的例子:
我们的商店现在只有梨、苹果、水蜜桃、草莓牛奶、尼泊尔军刀这五种商品,那我们怎么创建一个函数,让这五个商品分别得到五个地址呢?很明显,我们可以使用 y = l e n ( x ) − 1 y = len(x) - 1 y=len(x)−1,这个函数,其中 y y y是输出的地址, x x x是商品的名称, l e n ( x ) len(x) len(x)是商品名称的长度,那这样上面五个商品通过这个函数是不是都得到了唯一地址0,1,2,3,4。然后我们可以创建一个数组,在对应地址上写入对应商品的价格,这样,我要查找尼泊尔军刀的价格的时候,我们就可以先通过函数 y = l e n ( x ) − 1 y = len(x) - 1 y=len(x)−1计算出他的地址是4,然后通过数组直接得出地址为4的数据,也就是尼泊尔军刀的价格了
上面这个函数我们就把他叫做散列函数,散列函数家加上这个数组就创建成了一个新的数据结构散列表(其实就是新壶装旧酒)
散列函数先就说这么多(更进一步等我有时间在写🐶),具体的散列函数肯定不会是这样的,毕竟商品的数量很多,用这个散列函数只能存放几个商品的价格,总不能为了用散列表,将商品的名字改为“达拉崩吧斑得贝迪卜多比鲁翁”吧,就算改成这样也只能存放13个商品
这里给一个最常用的散列函数f(key) = key mod p (p<=m)
,mod是取模(求余数),key是关键字(例子中商品的名称),m是散列表的长度,p是自己选取的数,p的选取会影响散列表的质量,具体的有时间再写
1.2冲突
OK,接着看我们这个例子,我们现在有五个商品,然后散列函数为 y = l e n ( x ) − 1 y = len(x) - 1 y=len(x)−1,但是,最近发现菠萝卖的很好,商店打算进一批菠萝来卖,那肯定要将菠萝加入散列表中方便查找他的价格,但是,菠萝通过散列函数计算的地址为1,与苹果是一样的,我们把这种情况叫做冲突(collision),那该怎么办呢?
诶,是不是可以把苹果和菠萝的名称和价格都存在这个位置,然后如果需要查找他们俩的任何一个,我看一下就可以了,这样也很快呀(这个方法记为方法一)那还有没有其他的方法呢?
苹果是先进的货,菠萝是后来的,怎么敢跟苹果抢位置的啊,先来后到,菠萝排后面去,01234的位置上都已经有人了,菠萝去5那吧(这个记为方法二)
菠萝不愿意滚后边去,来和苹果抢,怎么办,让你俩抢,给你俩单独拉小黑屋去,将产生冲突的单独在创建一个散列表存放(这个记为方法三)
-
方法一
在冲突的位置上创建一个链表,如果遇到冲突了就来在链表上遍历查找
-
方法二
一旦发生冲突就去寻找下一个空的散列地址,只要散列表足够大,空的散列地址总能找到,并将价格存入。但是它会出现 堆积 的问题:某一个商品因为冲突去了下一个位置,但它去的位置是后面又新进的商品的对应位置。也就是说,两个本来就是名称一样长的商品要去争夺一个地址的情况
-
方法三
把产生冲突商品的单独拉走,创建一个溢出表来存放他们(用新的散列函数来得到地址,别再发生冲突),查价格的时候先去开始的散列表查找,如果找不到,就去溢出表查找
这些解决冲突的方法都可以用C语言去自己实现,等什么时候有时间,我再给这些都写出来,现在就不写了🐶
1.3小问题
下面哪些函数可以作为散列函数?(选自《算法图解》)
- f ( x ) = 1 f(x) = 1 f(x)=1
- f(x) = rand() # 每次都返回一个随机数
- f ( x ) = l e n ( x ) f(x) = len(x) f(x)=len(x)
答案到时给在评论区吧
2.应用案例(python代码实现实际问题)
2.1将散列表用于查找
用散列表创建一个电话簿
# python提供了一种创建散列表的快捷方式——使用一对大括号
phone_number_book = {}
phone_number_book["jenny"] = 10086
phone_number_book["Mike"] = 12315
print(phone_number_book["Mike"]) # 12315
tmd,python真简单,等有时间给写一个用C实现的散列表吧,C可以了解散列表的原理
我们平时用网址访问网站也可以使用散列表来实现,例如:
使用https://www.google.com/来访问Google的时候,计算机必须将这个网址转换为IP地址
这不就是将网址映射到IP地址上吗,这个过程被称为DNS解析(DNS resolution),散列表是提供这种功能的方式之一(上面这个IP我不知道是不是对的啊,不要去试)
2.2防止重复
如果你负责一个投票,一人只能投一票,如何避免重复投票呢?
还是使用散列表,只不过将第一个例子中的价格换成了投过(true)
# 创建一个散列表,用于记录已投票的人
voted = {}
# 有人来投票时,检查他是否在散列表中
# 在则kick them out,不在则加进去
def check_voter(name):
if voted.get(name):
print("Kick them out!")
else:
voted[name] = True
print("Let them vote!")
# 测试
check_voter("tom") # Let them vote!
check_voter("zhangsan") # Let them vote!
check_voter("tom") # Kick them out!