1.背景知识
不知道,大家听没听说过”知识图谱“?
嘿嘿,没听说过也不要紧,但你一定听说过”思维导图“吧?
”知识图谱“实际上是用图的形式把知识体系描绘出来,以梳理知识与知识之间的关联。
这里给出一个知识图谱的图片
”知识图谱“现已被广泛应用于各个领域,包括人工智能领域。
为什么有”知识图谱“的产生?
尤其是现在,处于一个知识和信息大爆炸的时代,以往积聚了大量的知识,而新的知识又在不断地产生。这些知识有的杂乱无章,有些拥有内在联系。如何对知识进行梳理和管理?”知识图谱“就是来做这件事情的。让知识形成体系,挖掘知识之间的内在联系。
我们来谈可扩展散列时,同样按照这种思路:首先,我们不是要搞懂”什么是可扩展散列“,而是要明白”可扩展散列是要解决什么问题“ ”可扩展散列在它所处的知识体系中处于什么位置“。
可扩展散列 (Extendable Hashing)是动态散列(Dynamic Hashing)的一种,动态散列有两种常见的实现方式:可扩展散列 (Extendable Hashing)和线性散列(Linear hashing )。而与”动态散列“相对应的概念是”静态散列“(Static Hashing)。
不管是静态散列还是动态散列,都是Hash在索引上的运用(Hashing can be used not only for file organization, but also for index-structure creation.
)。
索引机制用于加速对所需数据的存取。索引机制一般应用于数据库中。最终我们知道:可扩展散列属于动态散列,属于数据库的索引。至此,我们就明白了可扩展散列所处的知识体系。
下面一节用一个例子,图解可扩展散列的操作过程。
关于更多动态散列的知识,可参考:动态哈希
2.图解可扩充散列
可扩展散列基本思想:
为桶引入一间接层,即用一个指向块的指针数组来表示桶,而不是用数据块本身组成的数组来表示桶。
指针数组能增长,其长度总是2的幂。因而数组每增长一次,桶的数目就翻倍。不过,并非每个桶都有一个数据块;如果某些桶中的所有记录可以放在一个块中,则这些桶可能共享一个块。
散列函数h为每个键计算出一个K位二进制序列,该K足够大,比如32。但是桶的数目总是使用从序列第一位或最后一位算起的若干位,此位数小于K,比如说i位。也就是说,当i是使用的位数时,桶数组将有2i个项。
下面我们以几页ppt,来讲解可扩展散列。之后再做一道具体的题目。
不知道ppt大家看懂没有?下面做一道例题。
例子:Suppose that we are using extendable hashing on a file that contains records with the following search-key values:
2,3,5,7,11,17,19,23,29,31
Show the extendable hash structure for this file if the hash function is h(x) = x mod 8 and buckets can hold three records.
解析:对照前面的ppt,k=3,因为2的3次方等于8.i=1,此时可变的桶有两个(2的i次方),每个桶(bucket)最多放3个记录。
当一个桶3个记录放满时,则需要分裂,分裂后的两个桶深度为原桶深度+1(桶深最大为3,因一个桶最多放3个记录)。
分裂的过程为:i+1,可变的桶数为2的i+1次方。把引起分裂的数据放入新桶中,修改各桶的指针。
首先,i=1,桶的数目为2,用0和1标识,把24(11000),取前i位,按照前i位的值放入对应的桶中,如图
3.可扩充散列的代码实现
以后补充,敬请谅解~