[算法笔记]线性表的查找

Binarydog_Lee

已于 2022-06-04 19:03:35 修改

阅读量128

点赞数

分类专栏：数据结构与算法文章标签：算法数据结构

于 2022-05-26 22:04:59 首次发布

本文链接：https://blog.csdn.net/qq_39377889/article/details/124869955

版权

数据结构与算法专栏收录该内容

14 篇文章 3 订阅

订阅专栏

线性表的查找

脑图1

分三种：

顺序查找法
折半查找法
分块查找法

顺序查找

其实就是从表的一端向另一端遍历，依次比较关键字。

线性表的顺序查找嘛，具体一点我们就可以认为是按下标逐项遍历数组。那么对于返回值我们可以要求查找成功就返回其下标，未查找成功返回一个约定值（约定值显然不应当出现在数据项可能的取值中）。

实现又分两种，即有无哨兵。哨兵安放在头或尾部。

DataSource[0] = key;  //头部监视哨兵
int i = len;          //len记录了数据项的数量
while(DataSource[i] != key) {
	i--;
}
return i;
//显然返回的若是0则没查找到，非零则查找到

尾部哨兵也类似，就是从头开始遍历。

折半查找

前提是要查找的数据项有序排列

二分法嘛。

while(low <= high){
	mid = (low + high) / 2;
	if(k == DataSource[mid]){
		//查找到的情况
		return mid;
	}
	else if(key < DataSource[mid]){
		high = mid - 1;
	}
	else{
		low = mid + 1;
	}
}
//存在遍历完都没找到的情况
return -1;

这里啊不管是移动high还是low都是越过mid的，比如说low = mid + 1而不是low - mid。虽然这个很显而易见，但是还是提醒注意一下。

总而言之就是看mid的比较结果。

折半查找对于适合顺序存储结构（效率高于链表）

对于上述结论结合链表的遍历考虑一下就很明显了，显然数组更适合随机存取

折半算法时间复杂度是 $O(log_2n)$

$\left\{ \begin{aligned} C(1)=1\\ C(n)=C(n/2)+1 \end{aligned} \right.$

由上述递推式得到复杂度是 $O(log_2n)$ ，过程如下：

$\begin{aligned} C(n)=C(n/2)+1 \\ C(n)=C(n/4)+1+1 \\ ... \quad \quad \quad \quad \\ C(n)=C(n/{2^k})+1*k \end{aligned}$

进一步对最后一项式子代入 $k=\log_2 n$ 得

$C(n)=C(1)+1*\log_2 n=1+\log_2 n$

忽略常数项，得到 $log_2 n$

判定树/比较树

判定树
图源自《数据结构教程》，是对0~10这个十一个有序元素的折半查找的比较树。

这种树用于描述查找过程。显然层数代表比较次数（例如查找2或者8需要比较2次，因为它们都处在第二层）

内部结点：判定树中查找成功的结点
外部结点：判定树中查找失败对应的结点

说白了就是上图里圆形的是内部结点，方形的是外部结点。显然，在构造比较树时内部结点（或者说数据项）不作为叶子结点。

分块查找法

性能是介于顺序查找和折半查找之间的

整个数据集均分b块，前b-1块必须满的，最后一块可以不满。唯一的要求是前一块最大的关键字小于后一块的最小关键字

特点是：块内无序，块间有序

然后查找思路就是对索引表进行二分查找并找到元素可能在哪个块，找到可能在哪个块后再于该块内进行顺序查找。

索引存储结构
索引表保存的是最大关键字，然后找到可能所在的区块进行顺序查找（例如上图如果查找77，由于 $66 < 77 < 85$ ，所以在最大值是85那个块里进行顺序查找）

索引表是在存储数据的同时可以附加建立的一种方便查找的表。一般形式为(关键字,地址)，关键字就是数据表的某个元素的数据项，地址可以是指向该元素的指针，或者相对地址（比如数组下标）。

对于总数据项n的数据表每块最佳元素个数是 $\sqrt n$

因为这个时候 $A S L$ 才取到极小值

三种方法的ASL分析

$A S L$ 分为两类，即

$ASL_{success}$ 即查找成功情况下的 $A S L$
$ASL_{failure}$ 即查找失败情况下的 $A S L$

它的公式是这样的：

$ASL=\sum_{i=1}^np_ic_i$

其中：

$p_i$ 为查找第 $i$ 个元素的概率
$c_i$ 为找到地 $i$ 个元素所需的关键字比较次数

$A S L$ 是衡量查找算法性能好坏的重要指标， $A S L$ 越小则对应的查找算法的性能越好

我认为：将 $p_i$ 理解为于第 $i$ 项结束查找的概率比较合适。

我这么说的原因是更方便与解释 $ASL_{failure}$ 的问题。愚以为书上面的定义（上面定义就是原封不动照搬书上的）有点笼统，没说清楚。

顺序查找

$ASL_{success} = \sum_{i=1}^{n}p_ic_i=\frac1n \sum_{i=1}^{n}i = \frac1n ×\frac{n(n+1)}{2}=\frac{n+1}2$

对上式需要解释的是 $p_i = \frac 1n$ 被直接提到求和前面，因为不管 $i$ 取几 $p_i$ 是不变的。这是因为每个元素是关键字的可能性是相同的（都是 $\frac 1n$ ）。

$ASL_{failure}=n$

对上式的解释是： $A S L$ 代表平均需要进行的和关键值比较的操作的次数。显然顺序查找失败意味着整个数据表都遍历了一遍并且没有找到，整个数据表有 $n$ 项数据，则 $ASL_{failure}=n$ 是显然的。

或者说 $p_1 =p_2=... =p_{n-1}=0$ ，只有 $p_n=1$ ，并且又由于 $c_n=n$ ，可以得到上述结果。

对比看来，在关键字确实出现在n项数据中时，第 $i$ 项数据结束查找的可能性的确是 $\frac 1n$ （等可能地分布），但是放到关键字不出现在n项数据中的情况下，比较 $n$ 次的是一定的，所以比较1、2、… $n - 1$ 次结束查找的概率必然都为0。

折半查找

$ASL_{success} = \sum_{i=1}^{n}p_i×level(k_i)$

其中 $level(k_i)$ 表示关键字 $k_i$ 对应内部结点（在比较树中）的层次。

这个可以进一步简化为

$ASL_{success} =\frac 1n \sum_{i=1}^{n}2^{i-1}×i= \frac{n+1}n ×\log_2(n+1)-1 \approx \log_2(n+1)-1$

这个近似结果前提是判定树近似为高 $h=\log _2 (n+1)$ 的满二叉树（内部结点有n个，高度h不计外部结点）。

$ASL_{failure}=\sum_{i=0}^{n}q_i×(level(u_i)-1)$

因为对于一个具有 $n$ 个数据项的查找树，其外部结点必然有 $n + 1$ 个，这意味着有 $n + 1$ 中查找失败的情况。

在这里插入图片描述
对于上图，有：

$ASL_{success} = \frac{1*1 + 2*2+4*3+4*4}{11}$

$ASL_{failure}=\frac{4*3+8*4}{12}=3.67$

比如说这个 $ASL_{failure}$ 的分子意思就是第三层（比较3次）查找失败的节点有4个（写作3*4），第四层（比较4次）查找失败的节点有8个（写作4*8）

分块查找

$ASL_{blk}=ASL_{bn}+ASL_{sq}$

其中

$ASL_{bn}$ 是对索引表查找
$ASL_{sq}$ 是对对应块的顺序查找

对于一个数据表有n个元素，块大小为s时，共有 $b = c e i l (n / s)$ 个块。套用上面的结论

$ASL_{blk}=\log_2(b+1) -1 + \frac{s+1}{2} \approx \log_2(b+1) + \frac{s}{2}$

参考

李春葆《数据结构教程》
关于ASL(平均查找长度)的简单总结
 轻松学习数据结构（代码完整！）

Binarydog_Lee

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录