实现OPEN哈希表模板类,用哈希表实现一个英语词典

算法思想

哈希表

散列存储结构,散列法存储的基本思想由关键码的值决定的存储地址。优点是查找速度极快,查找效率与元素的个数无关。

哈希函数

在记录的关键码与记录的存储地址之间建立一种对应关系

冲突

在经过哈希函数变换后,可能将不同关键码映射到同一个哈希地址上。对此处理的方法有开放定址法链地址法再哈希法

我们所用到的是开发定值法:构建哈希表先要创建哈希函数,常用的哈希函数方法为除留余数法:
H(key)=key MOD p (p<=m,m为表长)
处理哈希冲突使用开放定址法中的线性探测再散列的方法:
当我们的H(key)的值出现冲突时,我们找到出现冲突后存储的位置进行存储,如果仍然有冲突那么继续向后。

源码及分析

数据

我们使用的是python通过导入一个CTE4的数据实现的,然后对CTE4表中的数据进行处理,使用自定义的哈希表(其实就是用开放定址法)进行查找。
数据源码可以去一下地方下载:

Github: https://github.com/PigWord/HashTable_dictionary.git
Gitee: https://gitee.com/Cerscent/HashTable_dictionary.git

源码

import time
class HashTable:
    def __init__(self):
        self.size = 7000
        self.slots = [None] * self.size
        self.data = [None] * self.size
    def put(self, key, data):
        hashvalue = self.hashfunction(key, len(self.slots))  # 计算 hashvalue
        # 如果 slots当前 hashvalue 位置上的值为None,则将新值插入
        if self.slots[hashvalue] == None:
            self.slots[hashvalue] = key
            self.data[hashvalue] = data
        else:
            # 如果 slots 当前 hashvalue 位置上的值为key,则用新值替代旧值
            if self.slots[hashvalue] == key:
                self.data[hashvalue] = data
            else:  # 如果 slots 当前 hashvalue 位置上的值为其他值的话,则开始探测后面的位置
                nextslot = self.rehash(hashvalue, len(self.slots))  # 重新 rehash,实际相当于探测 hashvalue后一个位置
                # 如果后一个位置不为空,且不等于当前值即被其他值占用,则继续探测后一个
                while self.slots[nextslot] != None and self.slots[nextslot] != key:
                    nextslot = self.rehash(nextslot, len(self.slots))

                # 如果后一个值为空,则插入;为原来的值,则替换
                if self.slots[nextslot] == None:
                    self.slots[nextslot] = key
                    self.data[nextslot] = data
                else:
                    self.data[nextslot] = data  # replace

    """除留余数法计算 hashvalue"""
    def hashfunction(self, key, size):
        hashv = 0
        for i in range(0, len(key)):
            hashv = 1313 * hashv + ord(key[i])
        return hashv % size

    """出现碰撞 rehash"""
    def rehash(self, oldhash, size) :
        return (oldhash + 1) % size

    def get(self, key):
        startslot = self.hashfunction(key, len(self.slots))

        data = None
        stop = False
        found = False
        position = startslot

        while self.slots[position] != None and not found and not stop:
            if self.slots[position] == key:  # 如果slots当前位置上的值等于 key,则找到了对应的 value
                found = True
                data = self.data[position]
            else:  # 否则的话,rehash后继续搜寻下一个可能的位置
                position = self.rehash(position, len(self.slots))
            if position == startslot:  # 如果最后又回到了第一次搜寻的位置,则要找的 key不在 slots中
                stop = True
        return data

    def __getitem__(self, key):
        return self.get(key)

    def __setitem__(self, key, data):
        self.put(key, data)


if __name__ == '__main__':
    hashtable = HashTable()
    with open('data/CET4.csv', 'r', encoding='utf8') as f:
        stime = time.time()
        for i, row, in enumerate(f):
            arr = row.split(',')
            if len(arr) < 7:
                continue
            word = arr[3]
            meaning = arr[8]
            hashtable.put(word, meaning)
        etime = time.time()
        print('生成词典消耗时间:' + str(etime - stime) + 's,总词数:' + str(i))

    print('请输入查询单词:')
    w = input()
    word = hashtable.get(w)
    print(word)

源码解析

首先定义一个类HashTable 创建构造类能够得到size属性并且还有slots[]数组和data[]数组两个都是大小为size的空数组,创建方法hashfunction(self, key, size) 这个方法也就是除留余数法得到一个哈希值,相当于python语法中的“hash()”函数,能够得到hashvalue的值,对于hashfunction()函数:传入参数key和size,循环key也就是单词中字母个数次循环关键代码hashv = 1313 * hashv + ord(key[i]) 这样能够得到一个数有点像得到一个随机的数,但是比随机得到一个数得到的数更加的唯一,取余得到结果也就是hashvalue。在put()函数中判断当hashvalue在slots[]数组中下标位置是否为空,不为空就把这个hashvalue数值在slot[]和data[]数组中的下标赋值分别为单词和单词的意思,如果hashvalue数值下标在slots[]数组中的位置上不为空但是key值一样(也就是上面有相同的单词),那就新值替换旧值,也就是data[]数组下标为hashvalue的值修改一下。如果在这个位置既不是空而且key值不相等,那么就使用rehash(self, oldhash, size rehash函数其实就是让hashvalue这个值往后+1位,而当位置不是空且值key不相等那么就使用rehash将hashvalue往后+1位并且使用while进行判断直到slots[hashvalue]位置为空或值key相等时结束,再把data[hashvalue]进行赋值。而对于get(self, key) 函数,显然输入一个key值得到他的hashvalue值然后循环找到对应的数组中key值与输入的key比较,找到对应的key值,然后返回出data[hashvalue]中的值,也就是单词的意思。


以上解析是在刚入门python时写的,所以对python的链表方面不太了解,其实对于上面说到的第二个数组可以理解为链表。

  • 0
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值