大话数据结构 -- 第八章查找

最新推荐文章于 2021-05-21 22:24:06 发布

他山烈石

最新推荐文章于 2021-05-21 22:24:06 发布

阅读量846

点赞数

本文链接：https://blog.csdn.net/sdhahaha945/article/details/52014245

版权

查找按照操作方式分为：静态查找和动态查找

折半查找

折半查找复杂度:o(logn)
插值查找
- 插值查找：要查找的关键字key与查找表中最大最小记录的关键字比较后的查找方法，核心在于插值公式： $mod = low +\dfrac{key-a[low]}{a[high]-a[low]}$
- 推导过程：
  $(key-a[low]):(mid-low)=(a[high]-a[low]):(high-low)$
- 插值查找的要求：查找表的数据分布比较均匀
- 插值查找复杂度：o(logn),平均性能比折半查找要好得多
斐波那契查找
- 斐波那契查找就是在二分查找的基础上根据斐波那契数列进行分割的。在斐波那契数列找一个等于略大于查找表中元素个数的数F[n]，将原查找表扩展为长度为Fn，完成后进行斐波那契分割，即F[n]个元素分割为前半部分F[n-1]个元素，后半部分F[n-2]个元素，找出要查找的元素在那一部分并递归，直到找到。
- 斐波那契查找复杂度：o(logn),平均性能优于折半查找，但是目标元素若是都处于左侧长半区，则查找效率要低于折半查找。

线性索引表中的数据不都是有序的，索引按照结构分为线性索引、树形索引和多级索引，这里只介绍线性索引（索引表）：稠密索引、分块索引、倒排索引。

稠密索引：数据集中的每个记录对应一个索引项。
- 稠密索引的索引表，索引项一定是按照关键码有序的排列
- 若数据集非常大，则查找性能大大下降
分块索引：数据集的记录分成了若干块，并且这些块满足两个条件：
- 块内无序：每一块内的记录不要求有序
- 块间有序：第n+1块所有记录的所有关键字均大于第一块所有关键字
- 分块索引的索引项结构分为三项：最大关键码、块内记录个数、块首元素指针
- 分块索引的查找，分为两步：
  - 查找块的位置（可使用折半、插值等算法）
  - 顺序查找块内元素
- 分块查找的复杂度：,比顺序查找快，但和折半查找有不少差距。
倒排索引：由属性值来确定记录的位置，而不是由记录来确定属性值。
- 索引表具有通用项：次关键字和记录号表，记录号表存储具有相同次关键字的所有记录的记录号，这样的索引方法就是倒排索引。
- 倒排索引的优点：查找记录非常快，不用读取记录就可以得到结果。
- 倒排索引的缺点：记录号不定长，若记录号较多，则维护较困难。

二叉排序树，又称为二叉查找树。它或者是一棵空树，或者是具有下列性质的二叉树：
- 若它的左子树不空，则左子树上所有结点的值均小于它的根结构的值；
- 若它的右子树不空，则右子树上所有结点的值均大于它的根节点的值；
- 它的左、右子树也分别为二叉排序树。
二叉排序树的查找
二叉排序树的插入
二叉排序树的删除

平衡二叉树：一种二叉排序树，其中每一个节点的左子树和右子树的高度差至多等于1。
- 平衡因子BF:二叉树上结点的左子树深度减去右子树深度的值
- 平衡因子只可能是-1,0,1
最小不平衡子树：距离插入点最近的，且平衡因子的绝对值大于1的结点为根的子树。
平衡二叉树的实现算法：这一块的内容网上有博客整理得很好，在这里直接引用过来，并在最后部分加上自己的理解。
详见另一博客：平衡二叉树实现

开放定址法：开放定址法就是一旦发生了冲突，就去寻找下一个空的散列地址，只要散列表足够大，空的散列地址总能找到，并将记录存入。
- 线性探测法： $f_i(key)=(f(key)+d_i) \quad mod \quad m\quad(d_i =1,2,3,...,m-1)$
- 二次探测法： $f i (k e y) = (f (k e y) + d i) m o d m (d i = 12, - 12, 22, - 22 . . .)$ $f_i(key)=(f(key)+d_i) \quad mod \quad m\quad(d_i =1^2,-1^2,2^2,-2^2...)$
- 随机探测法： $f i (k e y) = (f (k e y) + d i) m o d m (d i 是一个随机序列)$ $f_i(key)=(f(key)+d_i) \quad mod \quad m\quad(d_i 是一个随机序列)$
再散列函数法：一个散列函数产生冲突的时候，换另一个散列函数
链地址法：在记录表中的每个位置都建立一个单链表，若有冲突，则给单链表增加结点。
公共溢出区法：单独另创建一个表，来存储冲突的记录。