算法思想
哈希表
散列存储结构,散列法存储的基本思想由关键码的值决定的存储地址。优点是查找速度极快,查找效率与元素的个数无关。
哈希函数
在记录的关键码与记录的存储地址之间建立一种对应关系
冲突
在经过哈希函数变换后,可能将不同关键码映射到同一个哈希地址上。对此处理的方法有开放定址法、链地址法和再哈希法。
我们所用到的是开发定值法:构建哈希表先要创建哈希函数,常用的哈希函数方法为除留余数法:
H(key)=key MOD p (p<=m,m为表长)
处理哈希冲突使用开放定址法中的线性探测再散列的方法:
当我们的H(key)的值出现冲突时,我们找到出现冲突后存储的位置进行存储,如果仍然有冲突那么继续向后。
源码及分析
数据
我们使用的是python通过导入一个CTE4的数据实现的,然后对CTE4表中的数据进行处理,使用自定义的哈希表(其实就是用开放定址法)进行查找。
数据源码可以去一下地方下载:
Github: https://github.com/PigWord/HashTable_dictionary.git
Gitee: https://gitee.com/Cerscent/HashTable_dictionary.git
源码
import time
class HashTable:
def __init__(self):
self.size = 7000
self.slots = [None] * self.size
self.data = [None] * self.size
def put(self, key, data):
hashvalue = self.hashfunction(key, len(self.slots)) # 计算 hashvalue
# 如果 slots当前 hashvalue 位置上的值为None,则将新值插入
if self.slots[hashvalue] == None:
self.slots[hashvalue] = key
self.data[hashvalue] = data
else:
# 如果 slots 当前 hashvalue 位置上的值为key,则用新值替代旧值
if self.slots[hashvalue] == key:
self.data[hashvalue] = data
else: # 如果 slots 当前 hashvalue 位置上的值为其他值的话,则开始探测后面的位置
nextslot = self.rehash(hashvalue, len(self.slots)) # 重新 rehash,实际相当于探测 hashvalue后一个位置
# 如果后一个位置不为空,且不等于当前值即被其他值占用,则继续探测后一个
while self.slots[nextslot] != None and self.slots[nextslot] != key:
nextslot = self.rehash(nextslot, len(self.slots))
# 如果后一个值为空,则插入;为原来的值,则替换
if self.slots[nextslot] == None:
self.slots[nextslot] = key
self.data[nextslot] = data
else:
self.data[nextslot] = data # replace
"""除留余数法计算 hashvalue"""
def hashfunction(self, key, size):
hashv = 0
for i in range(0, len(key)):
hashv = 1313 * hashv + ord(key[i])
return hashv % size
"""出现碰撞 rehash"""
def rehash(self, oldhash, size) :
return (oldhash + 1) % size
def get(self, key):
startslot = self.hashfunction(key, len(self.slots))
data = None
stop = False
found = False
position = startslot
while self.slots[position] != None and not found and not stop:
if self.slots[position] == key: # 如果slots当前位置上的值等于 key,则找到了对应的 value
found = True
data = self.data[position]
else: # 否则的话,rehash后继续搜寻下一个可能的位置
position = self.rehash(position, len(self.slots))
if position == startslot: # 如果最后又回到了第一次搜寻的位置,则要找的 key不在 slots中
stop = True
return data
def __getitem__(self, key):
return self.get(key)
def __setitem__(self, key, data):
self.put(key, data)
if __name__ == '__main__':
hashtable = HashTable()
with open('data/CET4.csv', 'r', encoding='utf8') as f:
stime = time.time()
for i, row, in enumerate(f):
arr = row.split(',')
if len(arr) < 7:
continue
word = arr[3]
meaning = arr[8]
hashtable.put(word, meaning)
etime = time.time()
print('生成词典消耗时间:' + str(etime - stime) + 's,总词数:' + str(i))
print('请输入查询单词:')
w = input()
word = hashtable.get(w)
print(word)
源码解析
首先定义一个类HashTable 创建构造类能够得到size属性并且还有slots[]数组和data[]数组两个都是大小为size的空数组,创建方法hashfunction(self, key, size) 这个方法也就是除留余数法得到一个哈希值,相当于python语法中的“hash()”函数,能够得到hashvalue的值,对于hashfunction()函数:传入参数key和size,循环key也就是单词中字母个数次循环关键代码hashv = 1313 * hashv + ord(key[i]) 这样能够得到一个数有点像得到一个随机的数,但是比随机得到一个数得到的数更加的唯一,取余得到结果也就是hashvalue。在put()函数中判断当hashvalue在slots[]数组中下标位置是否为空,不为空就把这个hashvalue数值在slot[]和data[]数组中的下标赋值分别为单词和单词的意思,如果hashvalue数值下标在slots[]数组中的位置上不为空但是key值一样(也就是上面有相同的单词),那就新值替换旧值,也就是data[]数组下标为hashvalue的值修改一下。如果在这个位置既不是空而且key值不相等,那么就使用rehash(self, oldhash, size rehash函数其实就是让hashvalue这个值往后+1位,而当位置不是空且值key不相等那么就使用rehash将hashvalue往后+1位并且使用while进行判断直到slots[hashvalue]位置为空或值key相等时结束,再把data[hashvalue]进行赋值。而对于get(self, key) 函数,显然输入一个key值得到他的hashvalue值然后循环找到对应的数组中key值与输入的key比较,找到对应的key值,然后返回出data[hashvalue]中的值,也就是单词的意思。
以上解析是在刚入门python时写的,所以对python的链表方面不太了解,其实对于上面说到的第二个数组可以理解为链表。