查找
查找的概念
查找
在数据集合中寻找满足某种条件的数据元素的过程
查找表
用于查找的数据集合,可以是线性表、栈、队列、树、图等
查找表的操作
- 查询某个特定的元素是否在查找表中
- 检索满足条件的某个特定数据元素的各种属性
- 在查找表中插入一个数据元素
- 从查找表中删除某个数据元素
- 静态查找表:只有操作 1 和 2
- 动态查找表:包括 1 ~ 4
关键字
数据元素中唯一标识该元素的某个数据项的值。
平均查找长度(ASL, Average Search Length)——查找算法的评价指标
所有查找过程中进行关键字的比较次数的平均值
对 “每个元素被查找的概率 × 长度” 求和
- 注意查找二叉树查找失败时,需要画空的来计算。
顺序查找和折半查找
顺序查找
一般线性表的顺序查找
这里引入“哨兵”的概念
typedef struct SSTable {
// 查找表
ElemType *elem; // 元素存储空间基址,建表(用 malloc 或 new)时,0 号留空,放置“哨兵”
int TableLen;
}SSTable;
int Search_Seq(SSTable ST, ElemType key) {
ST.elem[0] = key; // 放置“哨兵”
for (int i = ST.TableLen; ST.elem[i] != key; i--); // 从表尾向表头扫描
return i; // 表中不存在 key 则返回 0,存在则返回位序
}
引入“哨兵”,不必判断数组是否会越界。
ASL: 见 22 王道 P259
【注】若查找概率不等,能获知查找概率情况下,应按照查找概率排序(排序的规则取决于从表头开始还是从表尾开始查找)
有序表的顺序查找
查找判定树
- 方形为查找失败结点
- 圆形为查找成功结点
🔸 计算查找失败 ASL
最好画出 查找判定树,本质是“插空”,在数据元素的左右“插空”,共会有 n + 1 个空,注意,查找“判定树”中最后一个数据元素失败时,有两个“空”,其长度都为 n 。
若查找概率不等,视具体情况分析:
- 如果将概率排序,查找成功的 ASL 将会优化,但查找失败无法得到优化。
折半查找——二分查找
仅适用于有序的顺序表,链表不适用(链表不能随机存取)
- 时间复杂度
log2(n)
算法思想
初始化 low、high、mid。
将给定 key 与表中间位置元素(下标为 mid)比较,有两种情况:
-
相等;返回下标 mid
-
不等,则 key 在左半区或右半区。
key 在右:令 low = mid + 1;mid = (low + high) / 2; 再次查找
key 在左:令 high = mid - 1;mid = (low + high) / 2; 再次查找
查找失败: low > high
// 设序列 L 是升序序列
int Binary_Search(SSTable L, ElemType key) {
int low = 0, high = L.Length - 1, mid = (low + high) /2;
while (low <= high) {
mid = (low + high) / 2; // mid 取中间位置
if (L.elem[mid] == key) // 查找成功,返回下标
return mid;
if (L.elem[mid] < key) // 如果 key 在 mid 右边
low = mid + 1; // low 变为 mid 后面一位
if (L.elem[mid] > key) // 如果 key 在 mid 左边
high = mid - 1; // high 变为 mid 前面一位
}
return -1; // 跳出循环则说明 low > high ,查找失败!
}
递归写法
int Binary_Sort(SSTable L, int low, int high, ElemType key) {
if (low <= high) {
mid = (low + high) / 2;
if (L.elem[mid] == key)
return mid;
if (L.elem[mid] < key)
Binary_Sort(L, low, mid - 1, key);
if (L.elem[mid] > key)
Binary_Sort(L, mid + 1, high, key);
}else
return -1;
}
🔸折半查找判定树
注意上述 mid 若改成向上取整,情况相反~
例子如下:
-
折半查找判定树是二叉排序树,每一颗子树的根结点是 每次折半查找时可能的 mid 结点。
-
对折半查找树进行 中序遍历 可得到正确排序。
-
对于查找失败的情况,在 二叉排序树 的 有空指针域 的结点的空指针域上连“方形结点”,表示查找失败的情况。
-
查找失败结点的个数 = 空指针域的个数 = n + 1
也可以这么理解:在(-∞, +∞)上,对序列插空,有 n + 1 个位置可以插入,这些位置意味着查找失败。
-
折半查找判定树的树高,与完全二叉树的树高计算方式相同。
具 有 n 个 数 据 元 素 的 查 找 表 对 应 的 折 半 查 找 二 叉 树 高 度 h = ⌈ log 2 ( n + 1 ) ⌉ = ⌊ log 2 n ⌋ + 1 具有\ n\ 个数据元素的查找表对应的折半查找二叉树高度\ h = \left\lceil { { {\log }_2}(n + 1)} \right\rceil = \left\lfloor { { {\log }_2}n} \right\rfloor + 1 具有 n 个数据元素的查找表对应的折半查找二叉树高度 h=⌈log2(n+1)⌉=⌊log2n⌋+1
分块查找——索引顺序查找
选择题中考得多
- 块内无序,块间有序。
数据结构
算法思想
- 初始化一个 “索引表”:
typedef struct {
ElemType maxValue; // 记录块中最大值
int low, high; // 块的起始和终点下标
}Index;
Index[BlockNum]; // 索引表
-
在索引表汇总确定待查记录所属的分块(可用 顺序查找、折半查找【块间有序】)
-
若使用折半查找,有两种情况:
①:key = 索引表中的某个值,直接查找成功
②:key != 索引表中的某个值,此时需要找到 maxValue 恰好大于 key 的块
但是由于是折半查找,如果 key != 索引表中任何一个值,最终都会导致
low > high
,此时,注意一定是在 low 所指向的块 中继续顺序查找,但也要注意增加判断:如果 low 超过了索引,则查找失败。
-
-
在对应的块内暴力顺序查找(块内无序)
ASL
一个数据元素的查找次数 = 第一步在索引表中查找次数 + 第二步在块内查找次数
每个数据元素按照上述方式计算,×其概率,求和即可。
查找效率分析
见 22 王道 P261-262
若均匀分块,块内长度一定,则可得到:
ASL = 索引查找平均长度 + 块内查找平均长度
存储结构优化
若查找表是“动态查找表”,可以采用在前面图一章中使用的“邻接表”来存储
瞎写的,仅供参考:
struct BlockNode {
// 这是一个块
ElemType maxValue; // 块内最大值
ElemInBlock *first; // 指向块内第一个元素
};
struct ElemInBlock {
ElemType value; // 块内一个元素
ElemInBlock *next; // 指向下一个块内元素
}
struct LinkTable {
BlockNode[size] BlkNodes;
int nodeNum;
}
B 树(Balanced Tree)与 B+ 树
多叉排序树
struct Node{
ElemType keys[m - 1]; // 关键字最多 m - 1 个
Node *child[m]; // 一棵子树最多 m 叉,child 在 key 之间“插空”
int keyNum; // 记录 key 的数目
};
- 根结点的 key 数目决定了子树的分叉树,结点中 key 的值按照升序或者降序排列,“插空”分叉,每个孩子拥有的 key 值都 ①介于双亲某两个 key 之间、 ②大于 双亲 key 中最大、③小于双亲 key 中最小。
例如 5 叉排序树:
- 每次查找都可以用 折半查找!
规 定 : ① 除 根 结 点 外 的 所 有 非 叶 结 点 至 少 有 ⌈ m / 2 ⌉ 棵 子 树 , 即 至 少 含 有 ⌈ m / 2 ⌉ 个 关 键 字 。 ② m 叉 树 中 , 对 于 任 一 个 结 点 , 其 子 树 高 度 都 需 要 相 同 规定:①除根结点外的所有非叶结点至少有\ \left\lceil {m/2} \right\rceil \ 棵子树,即至少含有\ \left\lceil {m/2} \right\rceil\ 个关键字。\\ ②m 叉树中,对于任一个结点,其子树高度都需要相同 规定:①除根结点外的所有非叶结点至少有 ⌈m/2⌉ 棵子树,即至少含有 ⌈m/2⌉ 个关键字。②m叉树中,对于任一个结点,其子树高度都需要相同
B 树及其基本操作
B 树也叫做 多路平衡查找树,B 树中所有结点的孩子个数的最大值称为 B 树的阶,通常用 m 表示。
m 阶 B 树性质
m 阶 B 树、空树,或为满足如下特性的 m 叉树:
规 定 : 1. 树 中 每 个 结 点 至 多 有 m 棵 子 树 , 至 多 含 有 m − 1 个 关 键 字 。 2. 若 根 结 点 不 是 终 端 结 点 , 则 至 少 有 2 棵 子 树 。 ( 保 证 多 路 平 衡 ) 3. 除 根 结 点 外 的 所 有 非 叶 结 点 至 少 有 ⌈ m / 2 ⌉ 棵 子 树 , 即 至 少 含 有 ⌈ m / 2 ⌉ − 1 个 关 键 字 ; ∴ 一 棵 B 树 每 层 至 少 有 : 第 1 层 — — 1 个 第 2 层 — — 2 个 第 3 层 — — 第 2 层 × ⌈ m / 2 ⌉ 第 i 层 — — 第 2 层 × ⌈ m / 2 ⌉ i − 2 第 h 层 — — 第 2 层 × ⌈ m / 2 ⌉ h − 2 ( 保 证 查 找 效 率 , 使 得 树 高 尽 可 能 小 ) 4. 所 有 叶 结 点 ( 失 败 结 点 ) 都 出 现 在 同 一 层 次 上 , 并 且 不 带 信 息 。 ( 可 以 视 为 外 部 结 点 或 类 似 于 折 半 查 找 判 定 树 的 查 找 失 败 结 点 , 实 际 上 这 些 结 点 不 存 在 , 指 向 这 些 结 点 的 指 针 为 空 ) , 叶 子 结 点 的 双 亲 称 为 终 端 结 点 。 5. 对 于 任 一 个 结 点 , 其 子 树 高 度 都 需 要 相 同 。 ( 等 价 于 第 2 点 ) 6. 有 n 个 关 键 字 的 B 树 , 叶 结 点 ( 查 找 失 败 结 点 ) 数 目 为 n + 1 在 ( − ∞ , + ∞ ) 上 , 对 序 列 插 空 , 有 n + 1 个 位 置 可 以 插 入 , 这 些 位 置 意 味 着 查 找 失 败 。 \begin{array}{l} 规定:\\ 1.树中每个结点至多有\ m\ 棵子树,至多含有\ m - 1\ 个关键字。\\\\ 2.若根结点不是终端结点,则至少有\ 2\ 棵子树。\\(保证多路平衡)\\\\ 3.除根结点外的所有非叶结点至少有\ \left\lceil {m/2} \right\rceil \ 棵子树,即至少含有\ \left\lceil {m/2} \right\rceil - 1\ 个关键字;\\∴一棵\ B\ 树每层至少有:\\ 第\ 1\ 层——1个\qquad 第\ 2\ 层——2个\\ 第\ 3\ 层——第\ 2\ 层 ×\left\lceil {m/2} \right\rceil \qquad 第\ i\ 层——第\ 2\ 层×{\left\lceil {m/2} \right\rceil ^{i - 2}}\qquad 第\ h\ 层——第\ 2\ 层×{\left\lceil {m/2} \right\rceil ^{h - 2}}\\(保证查找效率,使得树高尽可能小)\\\\ 4.所有叶结点(失败结点)都出现在同一层次上,并且不带信息。\\(可以视为外部结点或类似于折半查找判定树的查找失败结点,实际上这些结点不存在,\\指向这些结点的指针为空),叶子结点的双亲称为终端结点。\\\\ 5.对于任一个结点,其子树高度都需要相同。(等价于第\ 2\ 点)\\\\ 6.有\ n\ 个关键字的\ B\ 树,叶结点(查找失败结点)数目为\ n+1\\ 在(-∞, +∞)上,对序列插空,有 n + 1 个位置可以插入,这些位置意味着查找失败。 \end{array} 规定:1.树中每个结点至多有 m 棵子树,至多含有 m−1 个关键字。2.若根结点不是终端结点,则至少有 2 棵子树。(保证多路平衡)3.除根结点外的所有非叶结点至少有 ⌈m/2⌉ 棵子树,即至少含有 ⌈m/2⌉−1 个关键字;∴一棵 B 树每层至少有:第 1 层——1个第 2 层——2个第 3 层——第 2 层×⌈m/2⌉第 i 层——第 2 层×⌈m/2⌉i−2第 h 层</