本章的主要内容是:
Ø 查找的基本概念
Ø 线性表的查找技术
Ø 树表的查找技术
Ø 散列表的查找技术
7.1 概述
一、查找的基本概念
1、关键码:可以标识一个记录的某个数据项。
2、键值:关键码的值。
3、主关键码:可以唯一地标识一个记录的关键码。
4、 次关键码:不能唯一地标识一个记录的关键码。
5、查找 :在具有相同类型的记录构成的集合中找出满足给定条件的记录。
6、查找的结果 :若在查找集合中找到了与给定值相匹配的记录,则称查找成功;否则,称查找失败。
7、 静态查找:不涉及插入和删除操作的查找 。
8、 动态查找:涉及插入和删除操作的查找。
静态查找适用于:查找集合一经生成,便只对其进行查找,而不进行插入和删除操作,或经过一段时间的查找之后,集中地进行插入和删除等修改操作;
动态查找适用于:查找与插入和删除操作在同一个阶段进行,例如当查找成功时,要删除查找到的记录,当查找不成功时,要插入被查找的记录。
9、查找结构:面向查找操作的数据结构 ,即查找基于的数据结构。
本章讨论的查找结构 :
(1) 线性表:适用于静态查找,主要采用顺序查找技术和折半查找技术。
(2) 树表:适用于动态查找,主要采用二叉排序树的查找技术。
(3) 散列表:静态查找和动态查找均适用,主要采用散列技术。
二、查找算法的性能
1、平均查找长度:将查找算法进行的关键码的比较次数的数学期望值定义为平均查找长度
三、顺序查找 (线性查找)
7.2 线性表的查找技术
(一)顺序查找 (线性查找)
1、基本思想:从线性表的一端向另一端逐个将关键码与给定值进行比较,若相等,则查找成功,给出该记录在表中的位置;若整个表检测完仍未找到与给定值相等的关键码,则查找失败,给出失败信息。
2、int SeqSearch1(int r[ ], int n, int k)
//数组r[1] ~ r[n]存放查找集合
{
i = n;
while (i > 0 && r[i] != k)
i--;
return i;
}
(二)改进的顺序查找
1、基本思想:设置“哨兵”。哨兵就是待查值,将它放在查找方向的尽头处,免去了在查找过程中每一次比较后都要判断查找位置是否越界,从而提高查找速度
2、int SeqSearch2(int r[ ], int n, int k)
//数组r[1] ~ r[n]存放查找集合
{
r[0] = k; i = n;
while (r[i] != k)
i--;
return i;
}
3、(1)顺序查找的缺点:
平均查找长度较大,特别是当待查找集合中元素较多时,查找效率较低。
(2)顺序查找的优点:算法简单而且使用面广。
1对表中记录的存储没有任何要求,顺序存储和链接存储均可;
2对表中记录的有序性也没有要求,无论记录是否按关键码有序均可。
四、折半查找
1、 使用条件:
(1) 线性表中的记录必须按关键码有序;
(2)必须采用顺序存储。
2、基本思想:在有序表中,取中间记录作为比较对象,若给定值与中间记录的关键码相等,则查找成功;若给定值小于中间记录的关键码,则在中间记录的左半区继续查找;若给定值大于中间记录的关键码,则在中间记录的右半区继续查找。不断重复上述过程,直到查找成功,或所查找的区域无记录,查找失败。
3、折半查找——非递归算法
int BinSearch1(int r[ ], int n, int k)
{ //数组r[1] ~ r[n]存放查找集合
low = 1; high = n;
while (low <= high)
{
mid = (low + high) / 2;
if (k < r[mid]) high = mid -1;
else if (k > r[mid]) low = mid+ 1;
else return mid;
}
return 0;
}
4、折半查找——递归算法
int BinSearch2(int r[ ], int low, inthigh, int k)
{ //数组r[1] ~ r[n]存放查找集合
if (low > high) return 0;
else {
mid = (low + high) / 2;
if (k < r[mid])
return BinSearch2(r, low, mid-1, k);
else if (k > r[mid])
return BinSearch2(r, mid+1,high, k);
else return mid;
}
}
5、折半查找判定树
1)判定树:折半查找的过程可以用二叉树来描述,树中的每个结点对应有序表中的一个记录,结点的值为该记录在表中的位置。通常称这个描述折半查找过程的二叉树为折半查找判定树,简称判定树。
2)判定树的构造方法
⑴ 当n=0时,折半查找判定树为空;
⑵ 当n>0时,折半查找判定树的根结点是有序表中序号为mid=(n+1)/2的记录,根结点的左子树是与有序表r[1]~ r[mid-1]相对应的折半查找判定树,根结点的右子树是与r[mid+1]~ r[n]相对应的折半查找判定树。
3)折半查找性能分析
1查找成功:在表中查找任一记录的过程,即是折半查找判定树中从根结点到该记录结点的路径,和给定值的比较次数等于该记录结点在树中的层数。
2查找不成功:查找失败的过程就是走了一条从根结点到外部结点的路径,和给定值进行的关键码的比较次数等于该路径上内部结点的个数。
7.3 树表的查找技术
一、二叉排序树
1、二叉排序树(也称二叉查找树):或者是一棵空的二叉树,或者是具有下列性质的二叉树:
⑴ 若它的左子树不空,则左子树上所有结点的值均小于根结点的值;
⑵ 若它的右子树不空,则右子树上所有结点的值均大于根结点的值;
⑶ 它的左右子树也都是二叉排序树。
二叉排序树的定义采用的是递归方法。
2、二叉排序树的存储结构
class BiSortTree
{
public:
BiSortTree(int a[ ], int n);
~ BiSortTree( );
void InsertBST(BiNode<int> *root , BiNode<int> *s);
void DeleteBST(BiNode<int> *p, BiNode<int> *f );
BiNode<int> *SearchBST(BiNode<int> *root, int k);
private:
BiNode<int> *root;
};
3、二叉排序树的插入
(1)分析:若二叉排序树为空树,则新插入的结点为新的根结点;否则,新插入的结点必为一个新的叶子结点,其插入位置由查找过程得到。
(2)算法:
voidBiSortTree::InsertBST(BiNode<int> *root, BiNode<int> *s)
{
if (root == NULL)
root = s;
else if (s->data <root->data)
InsertBST(root->lchild, s);
else InsertBST(root->rchild, s);
}
(3)二叉排序树的构造
BiSortTree::BiSortTree(int r[ ], int n)
{
for (i = 0; i < n; i++)
{
s = new BiNode<int>;
s->data = r[i];
s->lchild = s->rchild = NULL;
InsertBST(root, s);
}
}
(4)小 结:
• 一个无序序列可以通过构造一棵二叉排序树而变成一个有序序列;
• 每次插入的新结点都是二叉排序树上新的叶子结点;
• 找到插入位置后,不必移动其它结点,仅需修改某个结点的指针;
• 在左子树/右子树的查找过程与在整棵树上查找过程相同;
• 新插入的结点没有破坏原有结点之间的关系。
4、二叉排序树的删除
(1)在二叉排序树上删除某个结点之后,仍然保持二叉排序树的特性。
(2)二叉排序树的删除算法——伪代码
1. 若结点p是叶子,则直接删除结点p;
2. 若结点p只有左子树,则只需重接p的左子树;
若结点p只有右子树,则只需重接p的右子树;
3. 若结点p的左右子树均不空,则
3.1 查找结点p的右子树上的最左下结点s及其双亲结点par;
3.2 将结点s数据域替换到被删结点p的数据域;
3.3 若结点p的右孩子无左子树,
则将s的右子树接到par的右子树上;
否则,将s的右子树接到结点par的左子树上;
3.4 删除结点s;
5、二叉排序树的查找
1在二叉排序树中查找给定值k的过程是:
⑴ 若root是空树,则查找失败;
⑵ 若k=root->data,则查找成功;否则
⑶ 若k<root->data,则在root的左子树上查找;否则
⑷ 在root的右子树上查找。
上述过程一直持续到k被找到或者待查找的子树为空,如果待查找的子树为空,则查找失败。
二叉排序树的查找效率在于只需查找二个子树之一。
2 BiNode *BiSortTree::SearchBST(BiNode<int> *root, int k)
{
if (root == NULL)
return NULL;
else if (root->data == k)
return root;
else if (k < root->data)
return SearchBST(root->lchild, k);
else return SearchBST(root->rchild,k);
}
(三)平衡二叉树
1、平衡二叉树:或者是一棵空的二叉排序树,或者是具有下列性质的二叉排序树:
⑴ 根结点的左子树和右子树的深度最多相差1;
⑵ 根结点的左子树和右子树也都是平衡二叉树。
2、平衡因子:结点的平衡因子是该结点的左子树的深度与右子树的深度之差。
3、最小不平衡子树:在平衡二叉树的构造过程中,以距离插入结点最近的、且平衡因子的绝对值大于1的结点为根的子树。
4、构造平衡二叉树的基本思想:每插入一个结点,
(1)从插入结点开始向上计算各结点的平衡因子,如果某结点平衡因子的绝对值超过1,则说明插入操作破坏了二叉排序树的平衡性,需要进行平衡调整;否则继续执行插入操作。
(2)如果二叉排序树不平衡,则找出最小不平衡子树的根结点,根据新插入结点与最小不平衡子树根结点之间的关系判断调整类型。
(3)根据调整类型进行相应的调整,使之成为新的平衡子树。