算法（C语言）-hash查询-学习笔记07

伐伐伐伐木工

已于 2022-06-12 10:39:30 修改

阅读量455

点赞数

文章标签：哈希算法算法 c语言

于 2022-06-12 04:11:22 首次发布

本文链接：https://blog.csdn.net/baidu_41924187/article/details/125230977

版权

本文详细探讨了哈希表的实现，包括直接寻址表、散列表（链接法解决冲突）、散列函数（除法、乘法和全域散列法）以及开放寻址法。通过分析不同方法的优缺点，强调了散列函数选择的重要性。文章还介绍了完全散列的概念，确保在静态关键字集合下实现O(1)的访问。最后，给出了简单的C语言实现示例。

摘要由CSDN通过智能技术生成

正好以前上算法课的时候有做过hash的笔记，直接把笔记搬运过来了，可能和具体实现有点不一样，但道理是一样的。当时上课的书是算法导论
所有代码实现：Tian-hy/c_ds

1. 直接寻址表（Direct-address Tables）

直接寻址表，记为 $T [0 . . . m - 1]$ , 其中每个位置称为槽（Slot），对应全域U的一个关键字（Key），key指向satellite data，若没有key为k的satellite data，则 $T [k] = N I L$ 。

$O (1)$

DIRECT-ADDRESS-SEARCH(T, k)
return T[k]

$O (1)$

DIRECT-ADDRESS-INSERT(T, x)
T[x.key] = x

$O (1)$

DIRECT-ADDRESS-DELETE(T, x)
T[x.key] = NIL

优点	将对象直接存放在表的槽中，从而节约空间
优点	只需要知道下标就可以找到元素，不必存储关键字。然而不存储关键字，就必须用某种方法确定槽是否为空。
缺点	易造成表的空间不够或空间被浪费

在直接寻址下，具有关键字k的元素被放到槽k中。在散列的方式下，该元素被放到 $h (k)$ 中；即利用散列函数（hash function）h，计算出关键字k的槽的位置。

$\rightarrow \{0, 1, ..., m-1\}$

优点：

缺点：

Insert: $O (1)$ ，插入相较于其他操作要稍微快一点，因为在此假设插入的元素没有出现在表中；若要检查x是否在表中需要付出额外代价，需要执行一个search来查找。

CHAINED-HASH-INSERT(T,x)
insert x at the head of list T[h(x.key)]

Search: $O (n)$ ，查找方法的最坏情况运行时间与表的长度成正比。

$O (1)$ ，期望时间。（ $O(1+\alpha)$ ，而 $\alpha$ 为 $O (1)$ ）

CHAINED-HASH-SEARCH(T,k)
search for an element with key k in list T[h(k)]

Delete:

双向链表： $O (1)$ ，因为我们输入的是x，而x包含x.key，所以无需搜索就可以直接找到x的位置，叫x.prev的元素指向x.next的元素，即可完成删除操作。

单向链表： $O (n)$ ，我们可以直接找到x.key的位置，但是因为是单向链表所以无法直接找到x.prev，也就是说需要遍历链表找到x.prev，再将前一个元素的key指向后一个元素的key，完成删除操作，渐进运行时间与search相同。

CHAINED-HASH-DELETE(T,x)
delete x from the list T[h(x.key)]

定理11.1: 在简单均匀散列的假设下，对于用链接法解决冲突的散列表，一次不成功search的avg time为 $\theta(1+\alpha)$ 。

定理11.2: 在简单均匀散列的假设下，对于用链接法解决冲突的散列表，一次成功查询的avg time为 $\theta(1+\alpha)$ 。

结论: 若散列表中槽数与表中的元素成正比，全部字典操作平均情况下都可以在 $O (1)$ 的时间内完成

介绍散列的三种具体方法：两种启发式方法（乘法与除法进行散列）与一种利用随机技术来提供可证明的良好性能（全域散列，universal hashing）

一种好的方法导出的散列值，在某种程度上应独立与数据可能存在的任何模式，甚至很接近的关键字要被散列到截然不同的散列值上。
将关键字转换为自然数

将字符串转换为ASCII码，随后以128为基数来表示。

举例： $pt\rightarrow (p=112, t=116) \rightarrow pt=(112*128)+116=14452$