散列函数
散列函数是一个“无论你给它什么数据,它都立即还你一个数字”的函数。
专业术语表达:将输入映射到数字。
平均时间复杂度 | |
简单查找 | O(n) |
二分查找 | O(log n) |
散列函数 | O(1) |
开始打造——商品报价
①首先创建一个空数组
0 | 1 | 2 | 3 | 4 |
②储存第一个商品
输入(“苹果”),散列函数输出索引为3
将苹果价格0.88存入索引3处
0.88 | ||||
0 | 1 | 2 | 3 | 4 |
③储存第二个商品
输入(“香蕉”),散列函数输出索引为0
将香蕉0.66价格存入索引0处
0.66 | 0.88 | |||
0 | 1 | 2 | 3 | 4 |
……
④当我们需要知道苹果的价格,不需要在数组中查找
只需输入(“苹果”)给散列函数,散列函数输出索引为3,则数组中索引为3的位置是苹果的价格,可以立即得到结果。
上述结果我们可以知道,散列函数准确指出了价格的储存位置,我们根本不用查找。
python中的散列表
Python提供的散列表表现为——字典,你可以用dict来创建散列表
应用
用于查找
如:电话簿——查找电话
phone_book = dict()
phone_book["jenny"] = 13720351514
phone_book["emergency"] = 110
print(phone_book["emergency"])
防止重复
如:投票站——防止重复投票
voted = {}
def check_voter(name):
if voted.get(name):
print("kick them out!")
else:
voted[name] = True
print("let them vote!")
check_voter("tom")
check_voter("tom")
check_voter("jerry")
用于缓存
缓存——用户能更快看到缓存的数据,立即告诉答案而不是再次搜索
cache = {}
def get_data_from_server(url):
pass
def get_page(url):
if cache.get(url):
return cache[url] #返回缓存的数据
else:
data = get_data_from_server(url)
cache[url] = data # 将数据保存在缓存中
return data
冲突
如:输入“苹果”时,散列函数输出3。但后面输出“鳄梨”时,散列函数的结果也为3,那么苹果和鳄梨映射到了同一位置。
解决办法:
①创建链表
在3这个位置创建一个链表(数组链表的混合数据结构)
0.66 | 链表首地址 | |||
0 | 1 | 2 | 3 | 4 |
苹果 | 0.88 | 鳄梨地址 |
鳄梨 | 1.99 | (空) |
但问题是随着链表延长,会降低查询速度
②更换散列函数
散列函数很重要,选择散列函数尽可能均匀映射到不同位置
③调整散列表长度
当数组中被占用的空间很多时,需要创建一个更长的数组为新的散列表,然后将所有元素储存到新的散列表中。