大二数据结构第八次总结----查找

                                                 查找

1.查找的基本概念

列表:由同一类型的数据元素组成的集合。

关键码:数据元素中的某个数据项,可以标识列表中的一个或一组数据元素。 

键值:关键码的值。

主关键码:可以唯一地标识一个记录的关键码。

次关键码:不能唯一地标识一个记录的关键码。

查找 :在具有相同类型的记录构成的集合中找出满足给定条件的记录。 

查找的结果 :若在查找集合中找到了与给定值相匹配的记录,则称查找成功;否则,称查找失败。 

静态查找 :不涉及插入和删除操作的查找 。

动态查找 :涉及插入和删除操作的查找。 

静态查找适用于:查找集合一经生成,便只对其进行查找,而不进行插入和删除操作; 或经过一段时间的查找之后,集中地进行插入和删除等修改操作;

动态查找适用于:查找与插入和删除操作在同一个阶段进行,例如当查找成功时,要删除查找到的记录,当查找不成功时,要插入被查找的记录。

查找结构 :面向查找操作的数据结构 ,即查找基于的数据结构。

线性表:适用于静态查找,主要采用顺序查找技术、折半查找技术。

树表:适用于动态查找,主要采用二叉排序树的查找技术。

散列表:静态查找和动态查找均适用,主要采用散列技术。 

 

 

2.顺序查找 (线性查找)

基本思想:

从线性表的一端向另一端逐个将关键码与给定值进行比较,

若相等,则查找成功,给出该记录在表中的位置;

若整个表检测完仍未找到与给定值相等的关键码,则查找失败,给出失败信息。

int LineSearch :: SeqSearch(int k)

{  

     i=n;

     while (i>0 && data[i]!=k)

         i--;

     return i;

}

3.顺序查找有哨兵

基本思想:设置“哨兵”。

哨兵就是待查值,

将哨兵放在查找方向的尽头处,

免去了在查找过程中每一次比较后都要判断查找位置是否越界,从而提高查找速度。

4.顺序查找的优点:

算法简单而且使用面广。

对表中记录的存储结构没有任何要求,顺序存储和链接存储均可;

对表中记录的有序性也没有要求,无论记录是否按关键码有序均可。

5.顺序查找的缺点:

平均查找长度较大,特别是当待查找集合中元素较多时,查找效率较低

6.折半查找

适用条件:

线性表中的记录必须按关键码有序;

必须采用顺序存储。

基本思想:

在有序表中(low, high,low<=high),

取中间记录作为比较对象,

若给定值与中间记录的关键码相等,则查找成功;

若给定值小于中间记录的关键码,则在中间记录的左半区继续查找;

若给定值大于中间记录的关键码,则在中间记录的右半区继续查找。

不断重复上述过程,直到查找成功,或所查找的区域无记录,查找失败。

折半查找判定树

判定树:折半查找的过程可以用二叉树来描述,

树中的每个结点对应有序表中的一个记录,

结点的值为该记录在表中的位置。

通常称这个描述折半查找过程的二叉树为折半查找判定树,简称判定树。

⑴ 当n=0时,折半查找判定树为空;

⑵ 当n>0时,

  折半查找判定树的根结点为mid=(n+1)/2,

  根结点的左子树是与有序表r[1] ~ r[mid-1]相对应的折半查找判定树,

  根结点的右子树是与r[mid+1] ~ r[n]相对应的折半查找判定树。

判定树的特点

任意两棵折半查找判定树,若它们的结点个数相同,则它们的结构完全相同

具有n个结点的折半查找树的高度为

判定树的性质

任意结点的左右子树中结点个数最多相差1

任意结点的左右子树的高度最多相差1

任意两个叶子所处的层次最多相差1

折半查找性能分析

具有n个结点的折半查找判定树的深度为

查找成功:在表中查找任一记录的过程,即是折半查找判定树中从根结点到该记录结点的路径,和给定值的比较次数等于该记录结点在树中的层数。

查找不成功:

查找失败的过程就是走了一条从根结点到外部结点的路径,

和给定值进行的关键码的比较次数等于该路径上内部结点的个数(失败情况下的平均查找长度等于树的高度)。

线性表查找的特点

线性表查找是静态的查找,要在线性表上进行动态查找,存在以下的问题

无序顺序表上进行动态查找,插入操作简单,但查找的复杂性高

有序顺序表上进行动态查找,查找的时间复杂性好,但是插入操作时间复杂性高

单链表上进行动态查找,插入操作简单,但查找操作复杂性高

解决办法:             

采用二叉树这种数据结构,实现动态查找

二叉排序树(Binary Search Tree)

二叉排序树(也称二叉查找树):或者是一棵空的二叉树,或者是具有下列性质的二叉树:

⑴若它的左子树不空,则左子树上所有结点的值均小于根结点的值;

⑵若它的右子树不空,则右子树上所有结点的值均大于根结点的值;

⑶ 它的左右子树也都是二叉排序树。

二叉排序树的插入

分析:若二叉排序树为空树,则新插入的结点为新的根结点;否则,新插入的结点必为一个新的叶子结点,其插入位置由查找过程得到。

若二叉排序树为空树,则新插入的结点为新的根结点;

否则,如果插入的值比根节点值大,则在右子树中进行插入;否则,在左子树中进行插入。

递归。

二叉排序树的构造

从空的二叉排序树开始,依次插入一个个结点 。

二叉排序树的删除

在二叉排序树上删除某个结点之后,仍然保持二叉排序树的特性。

分三种情况讨论:

被删除的结点是叶子;
被删除的结点只有左子树或者只有右子树;
被删除的结点既有左子树,也有右子树。
二叉排序树的删除算法——伪代码

若结点p是叶子,则直接删除结点p;
2. 若结点p只有左子树,   则只需重接p的左子树;

    若结点p只有右子树,  则只需重接p的右子树;

3. 若结点p的左右子树均不空,则

   3.1 查找结点p的右子树上的最左下结点s及s双亲结点par;

   3.2 将结点s数据域替换到被删结点p的数据域;

   3.3 若结点p的右孩子无左子树,

         则将s的右子树接到par的右子树上;

若结点p是叶子,则直接删除结点p;
2. 若结点p只有左子树,则只需重接p的左子树;

    若结点p只有右子树,则只需重接p的右子树;

3. 若结点p的左右子树均不空,则

   3.1 查找结点p的右子树上的最左下结点s及s双亲结点par;

   3.2 将结点s数据域替换到被删结点p的数据域;

   3.3 若结点p的右孩子无左子树,

         则将s的右子树接到par的右子树上;

         否则,将s的右子树接到结点par的左子树上;

   3.4 删除结点s;

二叉排序树的查找

在二叉排序树中查找给定值k的过程是:

⑴ 若root是空树,则查找失败;

⑵ 若k=root->data,则查找成功;否则

⑶ 若k<root->data,则在root的左子树上查找;否则

⑷ 在root的右子树上查找。

     上述过程一直持续到k被找到或者待查找的子树为空,如果待查找的子树为空,则查找失败。

二叉排序树的查找效率在于只需查找二个子树之一。

平衡二叉树(AVL树)

平衡二叉树:或者是一棵空的二叉排序树,或者是具有下列性质的二叉排序树:

⑴ 根结点的左子树和右子树的深度最多相差1;

⑵ 根结点的左子树和右子树也都是平衡二叉树。

 

平衡因子:结点的平衡因子是该结点的左子树的深度与右子树的深度之差。

最小不平衡子树:在平衡二叉树的构造过程中,以距离插入结点最近的、且平衡因子的绝对值大于1的结点为根的子树。

基本思想:

在构造二叉排序树的过程中,每插入一个结点时,首先检查是否因插入而破坏了树的平衡性,

若是,

  则找出最小不平衡子树,

  在保持二叉排序树特性的前提下,调整最小不平衡子树中各结点之间的链接关系,进行相应的旋转,使之成为新的平衡子树。

树表的查找技术

B-树

m阶B-树:是满足下列特性的树:

树中每个结点至多有m棵子树;
(2) 若根结点不是终端结点,则至少有两棵子树;

除根结点外,其他非终端结点至少有ém/2ù 棵子树;
(4)所有非终端结点都包含以下数据:

    (n,A0,K1,A1,K2,…,Kn,An)

n(ém/2ù -1≤n≤m -1)为关键码的个数;
      Ki(1≤i≤n)为关键码,且Ki<Ki+1(1≤i≤n-1);

      Ai(0≤i≤n)为指向子树根结点的指针,且指针Ai所指子树中所有结点的关键码均小于Ki+1大于Ki。

(5)所有叶子结点都在同一层上,B树是高平衡的。

B-树的插入    

基本原理:

当一个节点中插入新的数据时,
会造成节点中数据个数大于(m-1),
此时需要分裂节点,
将节点中第[m/2]+1个数据插入到当前节点的前驱中,
当前节点分裂为两个节点。
删除小结: 在B-树最下层节点中删除一个关键字

当最下层结点中的关键字数大于ém/2ù -1 时,可直接删除。
当最下层待删关键字所在结点中关键字数目为最低要求ém/2ù -1时,如果其左(右)兄弟中关键字数目大于ém/2ù -1,则可采用“父子换位法”。
当最下层待删结点及其左右兄弟中的关键字数目均为最低要求数目ém/2ù -1时,需要进行合并处理,合并过程与插入时的分裂过程“互逆”,合并一次, 分支数少一,可能出现 “连锁合并”, 当合并到根时, 各分支深度同时减1。
在B-树中删除一个关键字-非最下层节点中删除

基本原则:在保持有序性、平衡性的前提下,进行操作

B+树的结构定义

m阶B+树的结构定义如下:

 (1)每个结点至多有m个子结点;

(2)每个结点(除根外)至少有ceiling(m/2)个子结点;

(3)根结点至少有两个子结点;

(4)有k个子结点的结点必有k个关键码。

B+树

m阶B+树:是满足下列特性的树:

⑴ 含有m个关键码,每一个关键码对应一棵子树。

⑵ 关键码Ki是它所对应的子树的根结点中的最大(或最小)关键码。

⑶ 所有终端结点中包含了全部关键码信息,以及指向关键码记录的指针。

⑷ 所有终端结点按关键码的大小链在一起,形成单链表,并设置头指针。

B+树的查找

查找应该到叶结点层

在上层已找到待查的关键码,并不停止

而是继续沿指针向下一直查到叶结点层的这个关键码

 B+树的叶结点一般链接起来,形成一个双链表

适合顺序检索(范围检索)

B-树和B+树

特点

对于阶数相同的两棵树,每个节点所包含的分支数的定义相同(不能少于m/2,不能多于m)

每个节点所包含的关键字的个数不同

B-树中,关键字不重复出现;B+树中,叶子节点存放所有的关键字,内部结点存储着其后继节点中最大的关键字

插入操作都会引起节点的分裂

删除操作都会引起节点的合并

B-树适用于随机检索;B+树支持随机和顺序检索

散列表(hash)的查找技术

散列函数的构造

直接定址法

除留余数法

数字分析法

平方取中法

折叠法(分段叠加法)

冲突处理方法

开放定址法

链地址法

建立公共溢出区

散列的基本思想:在记录的存储地址和它的关键码之间建立一个确定的对应关系。这样,不经过比较,一次读取就能得到所查元素的查找方法。

散列表:采用散列技术将记录存储在一块连续的存储空间中,这块连续的存储空间称为散列表。

散列函数:将关键码映射为散列表中适当存储位置的函数。

散列地址:由散列函数所得的存储位置址 。

散列技术一般不适用于允许多个记录有同样关键码的情况。
有冲突,降低了查找效率,体现不出计算式查找的优点
散列方法也不适用于范围查找
不能查找最大值、最小值
也不可能找到在某一范围内的记录。
 

散列技术的关键问题:

⑴ 散列函数的设计。如何设计一个简单、均匀、存储利用率高的散列函数。

⑵ 冲突的处理。如何采取合适的处理冲突方法来解决冲突。

冲突:对于两个不同关键码ki≠kj,有H(ki)=H(kj),即两个不同的记录需要存放在同一个存储位置,ki和kj相对于H称做同义词。

设计散列函数一般应遵循以下原则:

⑴ 计算简单。散列函数不应该有很大的计算量,否则会降低查找效率。

⑵ 函数值即散列地址分布均匀。函数值要尽量均匀散布在地址空间,这样才能保证存储空间的有效利用并减少冲突

散列函数是关键码的线性函数,即:

(key) = a ´ key + b  (a,b为常数)
散列函数为:

H(key)=key  mod  p

散列函数——除留余数法

一般情况下,选p为小于或等于表长(最好接近表长)的最小素数

散列函数——数字分析法

根据关键码在各个位上的分布情况,选取分布比较均匀的若干位组成散列地址。

适用情况:

事先知道关键码的分布,

关键码的分布均匀

散列函数——平方取中法

对关键码平方后,按散列表大小,取中间的若干位作为散列地址(平方后截取)。

适用情况:
事先不知道关键码的分布且关键码的位数不是很大。

散列函数——折叠法

将关键码从左到右分割成位数相等的几部分,将这几部分叠加求和,取后几位作为散列地址。

关键码位数很多,事先不知道关键码的分布。

处理冲突的方法——开放定址法

由关键码得到的散列地址一旦产生了冲突,就去寻找下一个空的散列地址,并将记录存入。

如何寻找下一个空的散列地址?

(1)线性探测法

(2)二次探测法

(3)随机探测法

(4)再hash法

用开放定址法处理冲突得到的散列表叫闭散列表。

线性探测法

当发生冲突时,从冲突位置的下一个位置起,依次寻找空的散列地址。

对于键值key,设H(key)=d,闭散列表的长度为m,则发生冲突时,寻找下一个散列地址的公式为:

      Hi=(H(key)+di) % m   (di=1,2,…,m-1)

二次探测法

当发生冲突时,寻找下一个散列地址的公式为:

                     Hi=(H(key)+di)% m

(di=12,-12,22,-22,…,q2,-q2且q≤m/2)

随机探测法

当发生冲突时,下一个散列地址的位移量是一个随机数列,即寻找下一个散列地址的公式为:

                         Hi=(H(key)+di)% m   

(di是一个随机数列,i=1,2,……,m-1)

处理冲突的方法——拉链法(链地址法)

基本思想:将所有散列地址相同的记录,即所有同义词的记录存储在一个单链表中(称为同义词子表),在散列表中存储的是所有同义词子表的头指针。

用拉链法处理冲突构造的散列表叫做开散列表。

处理冲突的方法——公共溢出区

基本思想:

散列表包含基本表和溢出表两部分(通常溢出表和基本表的大小相同),

将发生冲突的记录存储在溢出表中。

查找时,对给定值通过散列函数计算散列地址,先与基本表的相应单元进行比较,若相等,则查找成功;否则,再到溢出表中进行顺序查找。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值