一、哈希函数(散列函数)
功能:给对应的数据生成一个整数,然后映射到哈希表中
主要特点:
- 不同的参数-> 不同的整数
- 相同的参数-> 相同的整数
二、哈希表(散列表)
具体内容生成的表,类似于之前学过的数组。
例子:
华强问西瓜老板:这西瓜多少钱?
西瓜老板:两块钱。
西瓜老板的思考过程:西瓜 -> 散列函数-> 索引(假设为66)-> 哈希表第66个的内容为2元。
三、哈希函数的实现(python实现)
def cal_hash(key):
square = ord(key) ** 2
mid = str(square)[3:6]
return int(mid)
print(cal_hash('瓜'))
print(cal_hash('瓜'))
print(cal_hash('梨'))
这样可以保证不同的输入参数一定会有不同的输出结果嘛?显然是不能保证的,这种情况发生了就叫做冲突。
四、避免哈希冲突
1.拉链法
将大小为M的数组的每一个元素指向一个链表,链表中的每一个节点都存储散列值为该索引的键值对,这个就是拉链法。
该方法的基本思想就是选择足够大的M,使得所有的链表都尽可能的短小,以保证查找的效率。对采用拉链法的哈希表实现的查找分为两步,首先是根据散列值找到对应的链表,然后沿着链表的顺序找到相应的键。
2.线性探索法
线性探测法是开放寻址法解决哈希冲突的一种方法,基本原理为,使用大小为M的数组来保存N个键值对,其中M>N,我们需要使用数组中的空位来解决碰撞冲突。
开放寻址法中最简单的是线性探测法:当碰撞发生时即一个键的散列值被另外一个键占用时,直接检查散列表中下一个位置,即将索引值加1,这样的线性探测有三种结果:
<1>命中,该位置的键个被查找的键相同;
<2>未命中,键为空;
<3>继续查找,该位置的键和被查找的键不同。
五、补充知识
哈希攻击就是通过精心构造哈希函数,使得所有的键进过函数函数后都会映射到同一个或者几个索引上,将哈希表退化为一个单链表,这样哈希表的各种操作,比如插入、查找都会从O(1)退化到了链表的查找操作,这样会消耗大量的CPU资源,导致系统无法响应,从而达到拒绝服务供给(Denial of Service,DOS)的目的。