题目要求
不使用任何内建的哈希表库设计一个哈希集合(HashSet)。
实现 MyHashSet 类:
void add(key) 向哈希集合中插入值 key 。
bool contains(key) 返回哈希集合中是否存在这个值 key 。
void remove(key) 将给定值 key 从哈希集合中删除。如果哈希集合中没有这个值,什么也不做。
示例:
输入:
["MyHashSet", "add", "add", "contains", "contains", "add", "contains", "remove", "contains"]
[[], [1], [2], [1], [3], [2], [2], [2], [2]]
输出:
[null, null, null, true, false, null, true, null, false]
解释:
MyHashSet myHashSet = new MyHashSet();
myHashSet.add(1); // set = [1]
myHashSet.add(2); // set = [1, 2]
myHashSet.contains(1); // 返回 True
myHashSet.contains(3); // 返回 False ,(未找到)
myHashSet.add(2); // set = [1, 2]
myHashSet.contains(2); // 返回 True
myHashSet.remove(2); // set = [1]
myHashSet.contains(2); // 返回 False ,(已移除)
提示:
0 <= key <= 106
最多调用 104 次 add、remove 和 contains
思路
拉链法解决冲突:我们定义了一个比较小的数组,然后使用 hash 方法来把求出 key 应该出现在数组中的位置;但是由于不同的 key 在求完 hash 之后,可能会存在碰撞冲突,所以数组并不直接保存元素,而是每个位置都指向了一条链表(或数组)用于存储元素。
我们可以看出在查找一个 key 的时候需要两个步骤:① 求hash到数组中的位置;② 在链表中遍历找key。
优点:我们可以把数组大小设计比较合理,从而节省空间;不用预知 key 的范围;方便扩容。
缺点:需要多次访问内存,性能上比超大数组的 HashSet 差;需要设计合理的 hash 方法实现均匀散列;
这个方法本质上就是把 HashSet 设计成一个 M * NM∗N 的二维数组。第一个维度用于计算 hash 分桶,第二个维度寻找 key 存放具体的位置。用了一个优化:第二个维度的数组只有当需要构建时才会产生,这样可以节省内存。
优点:两个维度都可以直接计算出来,查找和删除只用两次访问内存。
缺点:需要预知数据范围,用于设计第二个维度的数组大小。
代码
class MyHashSet:
def __init__(self):
# 桶的个数
self.bucket = 1000
# 每个桶有多少个格子,也就是链表长度
self.itemsPerBucket = 1001
# 建立二维数组,bucket行 bucket列
self.table = [[] for _ in range(self.bucket)]
# 哈希函数计算余数确定放在哪一个索引中
def hash(self, key):
return key % self.bucket
# 存放key值
def pos(self, key):
return key // self.bucket
# 向哈希集合中插入key值
def add(self, key):
item = self.hash(key)
# 如果这个item上没有数字存放
# 第一个维度只做哈希,第二个维度存放数据,需要的时候才会产生第二个维度的数据
if not self.table[item]:
# item对应的桶
self.table[item] = [0] * self.itemsPerBucket
# 第二个维度来存值
self.table[item][self.pos(key)] = 1
# 删除数据
def remove(self, key):
item = self.hash(key)
if self.table[item]:
self.table[item][self.pos(key)] = 0
# 是否存在这个值
def contains(self, key):
item = self.hash(key)
# 两个均不为空则是存在这个值
return (self.table[item] != []) and (self.table[item][self.pos(key)] == 1)