实现OPEN哈希表模板类，用哈希表实现一个英语词典

最新推荐文章于 2022-01-06 16:46:48 发布

姑苏落雨心中

最新推荐文章于 2022-01-06 16:46:48 发布

阅读量1.3k

点赞数

分类专栏： Python

本文链接：https://blog.csdn.net/a1137608040/article/details/109808508

版权

Python 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

使用python哈希表实现英语字典

算法思想
源码及分析

算法思想

哈希表

散列存储结构，散列法存储的基本思想由关键码的值决定的存储地址。优点是查找速度极快，查找效率与元素的个数无关。

哈希函数

在记录的关键码与记录的存储地址之间建立一种对应关系

冲突

在经过哈希函数变换后，可能将不同关键码映射到同一个哈希地址上。对此处理的方法有开放定址法、链地址法和再哈希法。

我们所用到的是开发定值法：构建哈希表先要创建哈希函数，常用的哈希函数方法为除留余数法:
H(key)=key MOD p (p<=m,m为表长)
处理哈希冲突使用开放定址法中的线性探测再散列的方法：
当我们的H(key)的值出现冲突时，我们找到出现冲突后存储的位置进行存储，如果仍然有冲突那么继续向后。

源码及分析

数据

我们使用的是python通过导入一个CTE4的数据实现的，然后对CTE4表中的数据进行处理，使用自定义的哈希表(其实就是用开放定址法)进行查找。
数据源码可以去一下地方下载:

Github: https://github.com/PigWord/HashTable_dictionary.git
Gitee: https://gitee.com/Cerscent/HashTable_dictionary.git

源码

import time
class HashTable:
    def __init__(self):
        self.size = 7000
        self.slots = [None] * self.size
        self.data = [None] * self.size
    def put(self, key, data):
        hashvalue = self.hashfunction(key, len(self.slots))  # 计算 hashvalue
        # 如果 slots当前 hashvalue 位置上的值为None,则将新值插入
        if self.slots[hashvalue] == None:
            self.slots[hashvalue] = key
            self.data[hashvalue] = data
        else:
            # 如果 slots 当前 hashvalue 位置上的值为key,则用新值替代旧值
            if self.slots[hashvalue] == key:
                self.data[hashvalue] = data
            else:  # 如果 slots 当前 hashvalue 位置上的值为其他值的话，则开始探测后面的位置
                nextslot = self.rehash(hashvalue, len(self.slots))  # 重新 rehash，实际相当于探测 hashvalue后一个位置
                # 如果后一个位置不为空，且不等于当前值即被其他值占用，则继续探测后一个
                while self.slots[nextslot] != None and self.slots[nextslot] != key:
                    nextslot = self.rehash(nextslot, len(self.slots))

                # 如果后一个值为空，则插入；为原来的值，则替换
                if self.slots[nextslot] == None:
                    self.slots[nextslot] = key
                    self.data[nextslot] = data
                else:
                    self.data[nextslot] = data  # replace

    """除留余数法计算 hashvalue"""
    def hashfunction(self, key, size):
        hashv = 0
        for i in range(0, len(key)):
            hashv = 1313 * hashv + ord(key[i])
        return hashv % size

    """出现碰撞 rehash"""
    def rehash(self, oldhash, size) :
        return (oldhash + 1) % size

    def get(self, key):
        startslot = self.hashfunction(key, len(self.slots))

        data = None
        stop = False
        found = False
        position = startslot

        while self.slots[position] != None and not found and not stop:
            if self.slots[position] == key:  # 如果slots当前位置上的值等于 key,则找到了对应的 value
                found = True
                data = self.data[position]
            else:  # 否则的话，rehash后继续搜寻下一个可能的位置
                position = self.rehash(position, len(self.slots))
            if position == startslot:  # 如果最后又回到了第一次搜寻的位置，则要找的 key不在 slots中
                stop = True
        return data

    def __getitem__(self, key):
        return self.get(key)

    def __setitem__(self, key, data):
        self.put(key, data)


if __name__ == '__main__':
    hashtable = HashTable()
    with open('data/CET4.csv', 'r', encoding='utf8') as f:
        stime = time.time()
        for i, row, in enumerate(f):
            arr = row.split(',')
            if len(arr) < 7:
                continue
            word = arr[3]
            meaning = arr[8]
            hashtable.put(word, meaning)
        etime = time.time()
        print('生成词典消耗时间：' + str(etime - stime) + 's，总词数：' + str(i))

    print('请输入查询单词:')
    w = input()
    word = hashtable.get(w)
    print(word)

源码解析

首先定义一个类HashTable 创建构造类能够得到size属性并且还有slots[]数组和data[]数组两个都是大小为size的空数组，创建方法hashfunction(self, key, size) 这个方法也就是除留余数法得到一个哈希值，相当于python语法中的“hash()”函数，能够得到hashvalue的值，对于hashfunction()函数：传入参数key和size，循环key也就是单词中字母个数次循环关键代码hashv = 1313 * hashv + ord(key[i]) 这样能够得到一个数有点像得到一个随机的数，但是比随机得到一个数得到的数更加的唯一，取余得到结果也就是hashvalue。在put()函数中判断当hashvalue在slots[]数组中下标位置是否为空，不为空就把这个hashvalue数值在slot[]和data[]数组中的下标赋值分别为单词和单词的意思，如果hashvalue数值下标在slots[]数组中的位置上不为空但是key值一样(也就是上面有相同的单词)，那就新值替换旧值，也就是data[]数组下标为hashvalue的值修改一下。如果在这个位置既不是空而且key值不相等，那么就使用rehash(self, oldhash, size rehash函数其实就是让hashvalue这个值往后+1位，而当位置不是空且值key不相等那么就使用rehash将hashvalue往后+1位并且使用while进行判断直到slots[hashvalue]位置为空或值key相等时结束，再把data[hashvalue]进行赋值。而对于get(self, key) 函数，显然输入一个key值得到他的hashvalue值然后循环找到对应的数组中key值与输入的key比较，找到对应的key值，然后返回出data[hashvalue]中的值，也就是单词的意思。

以上解析是在刚入门python时写的，所以对python的链表方面不太了解，其实对于上面说到的第二个数组可以理解为链表。

姑苏落雨心中

关注

0
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
实现OPEN哈希表模板类，用哈希表实现一个英语词典

使用python哈希表实现英语字典算法思想哈希表哈希函数冲突源码及分析数据源码源码解析算法思想哈希表散列存储结构，散列法存储的基本思想由关键码的值决定的存储地址。优点是查找速度极快，查找效率与元素的个数无关。哈希函数在记录的关键码与记录的存储地址之间建立一种对应关系冲突在经过哈希函数变换后，可能将不同关键码映射到同一个哈希地址上。对此处理的方法有开放定址法、链地址法和再哈希法。我们所用到的是开发定值法：构建哈希表先要创建哈希函数，常用的哈希函数方法为除留余数法:H(key)=key MOD
复制链接

扫一扫

专栏目录