2021SC@SDUSC
Hash索引
postgreSQL除了可以使用B-Tree索引,也可以使用Hash索引,Hash索引拥有更快的查询速率,我们本篇主要讲解一下Hash索引的原理并且比较它与B-Tree的区别,同时分析源码中关于Hash索引的相关的数据结构。
Hash索引原理
Hash表
哈希表也为散列表,其原理如下图所示
Hash索引的核心是构建一个Hash表,主要原理就是在Hash表中有一个Hash函数,通过查找键为参数,计算出映射到的桶号,将键值分配到各个桶中。然后仍然需要遍历桶中的内容,并仅返回具有适当哈希码的匹配ctid(行号)。由于存储的“hash code - ctid”对是有序的,因此可以高效地完成此操作。
同时Hash索引表可以分为静态Hash表和动态Hash表,静态Hash表不会增加桶的数目,而动态Hash表可以动态增加桶的数目。PostgreSQL则使用了动态Hash表的结构
Hash索引结构
每一个Hash索引结构如下所示,每一个Hash索引都有四种类型的页面,分别为元页,桶页,溢出页,位图页,接下来会介绍下关于Hash索引的相关的数据结构。
Hash的页面结构
Hash的页面结构与B-Tree相似,而其special space的字段填充为HashPageOpaqueData结构,我们从pg的源码找出该结构
typedef struct HashPageOpa