CMU15-445-Spring-2023-Project #2 - 前置知识（lec07-09）

gongyuandaye

已于 2024-01-16 22:11:31 修改

阅读量1k

点赞数 18

分类专栏： Linux服务器编程文章标签：哈希算法散列表笔记 cmu lecture

于 2024-01-10 22:44:58 首次发布

本文链接：https://blog.csdn.net/qq_43680965/article/details/135515029

版权

Linux服务器编程专栏收录该内容

38 篇文章 1 订阅

订阅专栏

Lecture #07_ Hash Tables

Data Structures

Hash Table

哈希表将键映射到值。它提供平均 O (1) 的操作复杂度（最坏情况下为 O (n)）和 O (n) 的存储复杂度。
由两部分组成： Hash Function和Hashing Scheme（发生冲突后的处理）

Hash Functions

DBMS 一般只关注散列速度和冲突率，不考虑安全性
SOTA：Facebook XXHash3

Static Hashing Schemes

静态散列方案是一种散列表大小固定的方案。

Linear Probe Hashing
- 线性探针
- 散列函数将键映射到槽。当发生碰撞时，线性搜索相邻的插槽，直到找到一个打开的插槽。删除时设置一个删除标记而不是真正的删除。
Robin Hood Hashing
- 线性探针散列的一种扩展，旨在减少每个key与其在散列表中的原本位置之间的最大距离（距离记为dis）。
- 线性探测过程中，若插入的key的dis比当前slot记录的dis大，就将其替换，并将旧key重新向后插入。
Cuckoo Hashing
- 使用具有不同哈希函数种子的多个哈希表；
- 插入时，检查每个表，挑选有空闲位置的表；
- 如果没有空闲的位置，则将随机一个表中冲突位置的旧元素驱逐出去，然后重新哈希找到新的位置；

Dynamic Hashing Schemes

动态散列方案能够根据需要调整哈希表的大小，而无需重建整个表。

Chained Hashing
- 链表法
Extendible Hashing
Linear Hashing
- 这种方案不会在数据桶溢出时立即拆分，而是维护一个拆分指针，跟踪下一个要拆分的数据桶。无论该指针是否指向已溢出的数据桶，数据库管理系统都会进行拆分

Lecture #08_ Tree Indexes

Table Indexes

表索引是表列子集的复制，通过对这些属性的子集进行组织或排序，以实现高效访问。因此，DBMS可以对表索引进行查找，以更快地找到某些图元，而不是执行顺序扫描。DBMS 确保表和索引的内容在逻辑上始终保持同步。

B+Tree

B+Tree 是一种自平衡树形数据结构，它能保持数据排序，并允许在 O（log(n)）内进行搜索、顺序访问、插入和删除。
B-Trees 在所有节点中存储键和值，而 B+ 树只在叶子节点中存储值。现代的 B+Tree 实现结合了其他 B-Tree 变体的特征，例如 B link-Tree 中使用的同胞指针。

B+Tree 是一棵 M 向搜索树（其中 M 代表一个节点可拥有的最大子节点数），具有以下属性：

它是完全平衡的（即每个叶节点的深度相同）；
除根节点外，每个内部节点至少有一半（M/2 <= 键数 <= M - 1）；
每个有 k 个键的内部节点都有 k+1 个非空子节点；

对于叶节点，键来自索引所基于的属性。每个节点上的k/v数组几乎都是按键排序的。叶节点值的两种方法是记录 ID 和元组数据。记录 ID 指的是元组位置的指针，通常是主键。拥有元组数据的叶子节点会在每个节点中存储元组的实际内容。
对于内部节点来说，值包含指向其他节点的指针，而键可以被看作是引导桩。它们引导着树的遍历，但并不代表叶子节点上的键（以及它们的值）。内部节点只拥有叶子节点中的键。
对于重复的key，一种方法是增加记录id作为key的一部分，另一种方法是允许叶节点溢出到包含重复密钥的溢出节点中。
表按照主键指定的排序顺序，以堆栈或索引组织的存储方式存储。由于有些 DBMS 总是使用聚类索引，因此如果表没有显式主键，它们就会自动将隐藏行 id 作为主键。如果使用聚类索引的属性访问图tuple，DBMS可以直接跳转到页面。
由于直接从非聚类索引中检索tuple的效率很低，因此 DBMS 可以先找出它需要的所有tuple，然后根据它们的页面 id 对它们进行排序。

B+Tree Design Choices

Node Size一般取决于存储介质或者workload。
删除后立即合并叶子节点可能会导致混乱，大量连续的删除和插入操作会导致不断的拆分和合并。可以设置分批合并，即多个合并操作同时进行，从而减少在树上进行昂贵的写入延迟的时间。
支持可变长度的键：

不直接存储键，而是存储一个指向键的指针。由于必须为每个键追逐一个指针的效率很低，在生产中使用这种方法的只有嵌入式设备，因为其微小的寄存器和高速缓存可以从这种空间节省中受益；
我们可以将每个密钥的大小设置为最大密钥的大小，然后将所有较短的密钥填充，而不是改变密钥的大小。在大多数情况下，这样做会极大地浪费内存；
最常用的方法是在单独的字典中用k/v索引来代替键。嵌入一个指针数组，该指针映射到节点内的键 + 值列表。

节点内搜索：

O(n) 线性搜索；
更有效的搜索方案是对每个节点进行排序，并使用二分搜索来查找键。每次搜索的复杂度只有 O(ln(n))。不过，由于我们必须维护每个节点的排序，因此插入的成本会更高；
利用插值法来找到关键字。这种方法会利用节点存储的元数据（如最大元素、最小元素、平均值等），并利用这些元数据生成关键字的大致位置；

Optimizations

由于 B+Tree 的每个节点都存储在缓冲池中的一个页面中，因此每次加载一个新页面时，都需要从缓冲池中获取该页面。为了完全跳过这一步，可以存储实际的原始指针来代替页面 ID。与手动获取整个树并手动放置指针相比，我们只需在正常遍历索引时存储页面查找产生的指针即可。需要注意的是，我们必须跟踪哪些指针被转换，并在指针指向的页面被unpin和驱逐时，将指针转换回页面 ID。
在 B+Tree 的初始构建过程中，按照常规方法插入每个键会导致不断的拆分操作。由于我们已经给叶子提供了同级指针，所以如果我们构建一个叶子节点的排序链表，然后使用每个叶子节点的第一个键自下而上地建立索引，那么初始插入数据的效率就会高得多。
前缀压缩。
对于非唯一key，只存储一次key。
只存储将查找正确路由到叶子节点所需的最小前缀。

Lecture #09_ Index Concurrency Control

Index Concurrency Control

逻辑正确性：这意味着线程能够读取它应该读取的值，例如，线程应该读回它之前写入的值。
物理正确性：这意味着对象的内部表示是正确的，例如，数据结构中不存在会导致线程读取无效内存位置的指针。

Locks vs. Latches

Latch Implementations

实现latch的基本原理是现代 CPU 提供的原子比较和交换（compare-and-swap，CAS）指令。通过该指令，线程可以检查内存位置的内容，查看其是否具有特定值。如果有，CPU 就会将旧值换成新值。否则，内存位置将保持不变。

Blocking OS Mutex
Test-and-Set Spin Latch (TAS)
Reader-Writer Latches

Hash Table Latching

在动态哈希表上相对更复杂。

page latch：每个页面都有自己的读写锁，保护其全部内容。线程在访问页面前会获得一个读写锁。这降低了并行性，因为每次可能只有一个线程能访问一个页面，但访问页面中的多个插槽对单个线程来说速度很快，因为它只需获取一个锁存器。
slot latch：每个插槽都有自己的锁存器。这增加了并行性，因为两个线程可以访问同一页面上的不同插槽。但这会增加访问表的存储和计算开销，因为线程必须为访问的每个槽获取一个锁存器，而且每个槽都必须为锁存器存储数据。DBMS 可以使用单模式锁存器（即spin latch）来减少元数据和计算开销，但代价是一定的并行性。

利用CAS也是一种方法。

B+Tree Latching

Basic：

Improved：

B+树代码必须能应对失败的锁存器获取。由于latch的持有时间（相对）较短，如果线程试图获取叶节点上的latch，但该latch不可用，那么它应迅速中止操作（释放持有的任何latch），然后重新开始操作。

gongyuandaye

关注

18
点赞
踩
28

收藏

觉得还不错? 一键收藏
0
评论
CMU15-445-Spring-2023-Project #2 - 前置知识（lec07-09）

哈希表将键映射到值。它提供平均 O (1) 的操作复杂度（最坏情况下为 O (n)）和 O (n) 的存储复杂度。由两部分组成： Hash Function和Hashing Scheme（发生冲突后的处理）
复制链接

扫一扫

专栏目录