静态哈希（Static Hashing）和动态哈希（Dynamic Hashing）

最新推荐文章于 2025-02-04 22:52:22 发布

EricWang1358

最新推荐文章于 2025-02-04 22:52:22 发布

阅读量1.4k

点赞数 27

CC 4.0 BY-SA版权

分类专栏： DB 文章标签：哈希算法散列表算法

本文链接：https://blog.csdn.net/m0_74331272/article/details/144413020

DB 专栏收录该内容

33 篇文章

订阅专栏

这张图讲述了哈希表的两种类型：静态哈希（Static Hashing） 和 动态哈希（Dynamic Hashing）。以下是对每种方法的解析和通俗解释：

静态哈希（Static Hashing）

静态哈希的特点是哈希表的大小在创建时固定，不能动态扩展。适合数据规模已知且稳定的情况。

1. Linear Probe Hashing

机制： 当哈希冲突发生时，依次检查表中下一个位置（线性探测），直到找到一个空位。
优点：
- 简单，内存利用率高。
缺点：
- 冲突多时可能导致 主群聚（Primary Clustering），降低插入/查询效率。
比喻： 像排队占座，座位满了就往下一个座位挪，直到找到空位。

2. Cuckoo Hashing

机制： 每个键最多可以存在多个哈希表位置。如果冲突，尝试将现有的键“踢走”，把它重新插入到另一个哈希表中。
优点：
- 冲突解决效率高，查找时间恒定（O(1)O(1)）。
缺点：
- 插入时可能出现需要多次迁移的情况，影响性能。
比喻： 像抢座位，一个人抢到座位后把原来的占座人挤走，直到所有人都能坐下。

动态哈希（Dynamic Hashing）

动态哈希的特点是哈希表可以根据数据增长动态扩展或收缩，适合数据规模变化频繁的情况。

1. Chained Hashing

机制： 每个哈希槽存储一个链表，所有冲突的键都放入链表中。
优点：
- 空间利用灵活，冲突处理简单。
- 不需要扩展哈希表，直接在链表中处理冲突。
缺点：
- 查询效率可能下降到链表长度。
比喻： 像给每个座位分配一个储物柜，冲突的物品都存放到同一个柜子里。

2. Extendible Hashing

机制： 使用目录来动态扩展哈希表。每个目录项指向一个桶，冲突时分裂桶并更新目录。
优点：
- 哈希表可以随数据增长而扩展。
- 不浪费太多空间。
缺点：
- 目录更新时开销较大。
比喻： 像一个动态的档案柜，柜子满了可以增加抽屉。

3. Linear Hashing

机制： 不需要目录，而是通过分裂桶来扩展哈希表。
优点：
- 空间利用率高，扩展较平滑。
- 避免了扩展时的巨大开销。
缺点：
- 分裂过程需要额外的计算开销。
比喻： 像一个动态的长椅，随人数增加延长椅子的长度。

总结

静态哈希：适合数据规模已知的场景，维护简单但扩展困难。
动态哈希：适合数据动态变化的场景，扩展灵活但实现复杂。

Extendible Hashing 和 Linear Hashing 的核心区别：

这两种动态哈希方法都旨在处理数据动态增长的问题，但它们的实现方式和适用场景存在显著差异。以下通过特性比较、例子和适用场景来具体分析它们的区别。

1. Extendible Hashing 特点：

核心思想： 使用 目录表（directory table），目录深度可以动态扩展。目录表指向不同的桶，目录扩展会导致桶分裂。
扩展策略： 按需扩展目录深度，但桶的分裂是按键的二进制哈希值动态调整。
存储优化： 通过目录指针管理桶，未分裂的桶可以共享目录指针，节省内存。

例子： 假设目录深度为 1，初始桶大小为 2。

插入 k=10,3,17,24k = 10, 3, 17, 24：
- h0(k)h_0(k) 取键的二进制前 1 位作为初始哈希函数。
- 步骤：
  1. 插入 10：10101010，前 1 位为 11，放入桶 1。
  2. 插入 3：00110011，前 1 位为 00，放入桶 0。
  3. 插入 17：1000110001，前 1 位为 11，但桶 1 满，目录深度扩展至 2，桶 1 分裂，重新分配。
  4. 插入 24：1100011000，根据扩展的目录找到桶 2，存入。

最终目录表：

Depth: 2
Directory: [Bucket 0 -> [3], Bucket 1 -> [10], Bucket 2 -> [17, 24]]

优点：

只在需要时扩展目录深度。
支持动态扩展和高效冲突处理。
可共享指针，节省存储空间。

缺点：

2. Linear Hashing 特点：

核心思想： 动态分裂桶，但不需要目录表。分裂是线性的，按照固定顺序分裂，而非按需调整深度。
扩展策略： 使用多级哈希函数 h0,h1,h2,…h_0, h_1, h_2, \ldots，初始按 h0(k)=kmod 2h_0(k) = k \mod 2，桶分裂后使用下一级哈希函数 h1(k)=kmod 4h_1(k) = k \mod 4。
无全局目录： 桶按照固定顺序依次分裂，所有桶都由一个简单的逻辑进行组织。

例子： 假设初始哈希函数 h0(k)=kmod 2h_0(k) = k \mod 2，桶大小为 2。

插入 k=10,3,17,24k = 10, 3, 17, 24：
- 步骤：
  1. 插入 10：10mod 2=010 \mod 2 = 0，放入桶 0。
  2. 插入 3：3mod 2=13 \mod 2 = 1，放入桶 1。
  3. 插入 17：17mod 2=117 \mod 2 = 1，但桶 1 满，分裂桶 1，使用 h1(k)=kmod 4h_1(k) = k \mod 4，重新分配键。
    - 3mod 4=33 \mod 4 = 3，留在桶 1。
    - 17mod 4=117 \mod 4 = 1，新桶 2。
  4. 插入 24：24mod 4=024 \mod 4 = 0，放入桶 0。

最终桶分布：

Bucket 0: [10, 24]
Bucket 1: [3]
Bucket 2: [17]

优点：

分裂逻辑简单，逐一分裂桶，无需复杂的目录管理。
更适合顺序扩展的场景。

缺点：

桶分裂是顺序的，可能导致负载不均。
没有目录表，可能导致更多的桶内冲突。

3. Extendible Hashing vs. Linear Hashing 的关键区别

特性	Extendible Hashing	Linear Hashing
扩展方式	按需扩展目录深度，按键值动态分裂	按固定顺序逐一分裂桶
是否有目录表	有全局目录，指针可以共享	无目录表
实现复杂度	需要维护目录表，指针关系复杂	实现简单，只需逻辑分裂
存储空间效率	高，未分裂的桶可以共享指针	无法共享指针，可能占用更多空间
冲突处理能力	动态扩展桶和目录，有效减少冲突	桶冲突处理受限，可能导致负载不均
适用场景	需要高效存储和动态扩展的数据库索引（如B树）	数据逐渐增长且扩展顺序性强的应用