查找

查找

查找的基本概念

列表:由同一类型的数据元素组成的集合。
关键码:数据元素中的某个数据项,可以标识列表中的一个或一组数据元素。
键值:关键码的值。
主关键码:可以唯一地标识一个记录的关键码。
次关键码:不能唯一地标识一个记录的关键码。
查找 :在具有相同类型的记录构成的集合中找出满足给定条件的记录。
查找的结果 :若在查找集合中找到了与给定值相匹配的记录,则称查找成功;否则,称查找失败。
静态查找 :不涉及插入和删除操作的查找 。
动态查找 :涉及插入和删除操作的查找。
查找结构 :面向查找操作的数据结构 ,即查找基于的数据结构。
本章讨论的查找结构 :
线性表:适用于静态查找,主要采用顺序查找技术、折半查找技术。
树表:适用于动态查找,主要采用二叉排序树的查找技术。
散列表:静态查找和动态查找均适用,主要采用散列技术。

查找算法的性能

查找算法时间性能通过关键码的比较次数来度量。
⑴算法;
⑵问题规模;
⑶待查关键码在查找集合中的位置;
⑷查找频率。
查找频率与算法无关,取决于具体应用。
通常假设pi是已知的。
同一查找集合、同一查找算法,关键码的比较次数与哪些因素有关呢?
查找算法的时间复杂度是问题规模n和待查关键码在查找集合中的位置k的函数,记为T(n,k)。
平均查找长度:将查找算法进行的关键码的比较次数的数学期望值定义为平均查找长度。计算公式为: ASL=PiCi(i从1累加到N)
结论:ci取决于算法;pi与算法无关,取决于具体应用。如果pi是已知的,则平均查找长度只是问题规模的函数。

线性查找技术

顺序查找

普通的顺序查找方法
带监视哨的顺序查找方法

顺序查找查找性能的改进方法

记录每个数据的访问频率,
把访问频率高的数据移向顺序表的右端
可以减少查找成功时所进行的比较次数,提高效率
构造有序的顺序表
减少查找失败时所进行的比较次数,提高查找效率
此时的查找失败的查找长度?

顺序查找的优点

算法简单而且使用面广。
对表中记录的存储结构没有任何要求,顺序存储和链接存储均可;
对表中记录的有序性也没有要求,无论记录是否按关键码有序均可。

顺序查找的缺点

平均查找长度较大,特别是当待查找集合中元素较多时,查找效率较低。
适用条件:

折半查找

线性表中的记录必须按关键码有序;
必须采用顺序存储。
非递归算法

int LineSearch :: BinSearch1(int k){
     int mid, low = 1, high = length; //初始查找区间是[1, n]
     while (low <= high) {//当区间存在时
          mid = (low + high) / 2; 
          if (k < data[mid]) 
              high = mid - 1;
          else if (k > data[mid]) 
               low = mid + 1; 
          else
               return mid; //查找成功,返回元素序号
      }
      return 0; //查找失败,返回0
}

递归算法

int LineSearch :: BinSearch2(int low, int high, int k){
      if (low > high) 
          return 0; //递归的边界条件
      else {
         int mid = (low + high) / 2;
      if (k < data[mid]) 
           return BinSearch2(low, mid-1, k);
      else if (k > data[mid]) 
           return BinSearch2(mid+1, high, k); 
      else 
           return mid; //查找成功,返回序号
     }
}
折半查找的判定树

判定树:折半查找的过程可以用二叉树来描述,
树中的每个结点对应有序表中的一个记录,
结点的值为该记录在表中的位置。
通常称这个描述折半查找过程的二叉树为折半查找判定树,简称判定树。

判定树的构造方法

⑴ 当n=0时,折半查找判定树为空;
⑵ 当n>0时,
折半查找判定树的根结点为mid=(n+1)/2,
根结点的左子树是与有序表r[1] ~ r[mid-1]相对应的折半查找判定树,
根结点的右子树是与r[mid+1] ~ r[n]相对应的折半查找判定树

任意两棵折半查找判定树,若它们的结点个数相同,则它们的结构完全相同
具有n个结点的折半查找树的高度为log以2为底N的对数加1
任意结点的左右子树中结点个数最多相差1
任意结点的左右子树的高度最多相差1
任意两个叶子所处的层次最多相差1
查找成功:在表中查找任一记录的过程,即是折半查找判定树中从根结点到该记录结点的路径,和给定值的比较次数等于该记录结点在树中的层数。
在这里插入图片描述
例:给定一棵树(如上图),该树的ASLsucc=(1+22+34+4*4)/11=33/11=3

查找不成功:
查找失败的过程就是走了一条从根结点到外部结点的路径,
和给定值进行的关键码的比较次数等于该路径上内部结点的个数(失败情况下的平均查找长度等于树的高度)
查找不成功:树如上图查找不成功就是将树的叶子结点都走一遍
在这里插入图片描述

树表查找技术

线性表查找是静态的查找,要在线性表上进行动态查找,存在以下的问题
无序顺序表上进行动态查找,插入操作简单,但查找的复杂性高
有序顺序表上进行动态查找,查找的时间复杂性好,但是插入操作时间复杂性高
单链表上进行动态查找,插入操作简单,但查找操作复杂性高
解决办法:
采用二叉树这种数据结构,实现动态查找

二叉排序树(BST)

二叉排序树(也称二叉查找树):或者是一棵空的二叉树,或者是具有下列性质的二叉树:
⑴若它的左子树不空,则左子树上所有结点的值均小于根结点的值;
⑵若它的右子树不空,则右子树上所有结点的值均大于根结点的值;
⑶ 它的左右子树也都是二叉排序树。
中序遍历二叉排序树可以得到一个按关键码有序的序列
二叉排序树的构造:
构造过程实质就是二叉排序树的插入过程
若二叉排序树为空树,则新插入的结点为新的根结点;否则,新插入的结点必为一个新的叶子结点,其插入位置由查找过程得到。
否则,如果插入的值比根节点值大,则在右子树中进行插入;否则,在左子树中进行插入。
递归。

BiNode *BiSortTree::InsertBST(BiNode *bt, int x)
{
if (bt == nullptr) { //找到插入位置
BiNode *s = new BiNode; 
s->data = x;
s->lchild = nullptr; s->rchild = nullptr;
bt = s;
return bt;
}
else if (bt->data > x) bt->lchild = InsertBST(bt->lchild, x);
else bt->rchild = InsertBST(bt->rchild, x);
}
BiSortTree::BiSortTree(int a[ ], int n)
{
root = nullptr;
for (int i = 0; i < n; i++)
root = InsertBST(root, a[i]);//只有root为空,才会直接赋值给root,否则都是赋给了叶子节点。
}

二叉排序树的删除
要求删除后仍保持二叉树特性,分三种情况讨论:
1、被删除的结点是叶子;
操作:将双亲结点中相应指针域的值改为空,再delete该结点。
2、被删除的结点只有左子树或者只有右子树;
操作:将双亲结点的相应指针域的值指向被删除结点的左子树(或右子树),再delete该结点。
3、被删除的结点既有左子树,也有右子树。
3.1 查找结点p的右子树上的最左下结点s及s双亲结点par;
3.2 将结点s数据域替换到被删结点p的数据域;
3.3 若结点p的右孩子无左子树,
则将s的右子树接到par的右子树上;//这就是特殊情况,par=p
否则,将s的右子树接到结点par的左子树上;
3.4 删除结点s;

void BiSortTree::DeleteBST(BiNode<int> *p, BiNode<int> *f ) {
  if (!p->lchild && !p->rchild)  {   
              if(f->child==p)        f->lchild= NULL;  
              else  f->lchild= NULL; 
              delete p;
   }
  else if (!p->rchild) {     //p只有左子树
             if(f->child==p)   f->lchild=p->lchild;
             else f->rchild=p->lchild;
                delete p;
  }
  else if (!p->lchild) {   //p只有右子树
   if(f->child==p)  f->lchild=p->rchild;
   else f->rchild=p->rchild;
            delete p;
         }
            else {   //左右子树均不空
             par=p;  s=p->rchild;  
             while (s->lchild!=NULL)   //查找最左下结点
             {
               par=s;
               s=s->lchild;
             }
             p->data=s->data;
             if (par==p) p->rchild=s->rchild;  //处理特殊情况
                 else par->lchild=s->rchild;    //一般情况
             delete s;
           } //左右子树均不空的情况处理完毕
 }

二叉树的查找

BiNode *BiSortTree::SearchBST(BiNode<int> *root, int k)
{
    if (root==NULL)
    return NULLelse if (root->data==k) 
              return root;
    else if (k<root->data) 
              return SearchBST(root->lchild, k);
    else 
          return SearchBST(root->rchild, k);
}

二叉排序树查找性能分析
在这里插入图片描述

平衡二叉树(AVL)

基本思想:
在构造二叉排序树的过程中,每插入一个结点时,首先检查是否因插入而破坏了树的平衡性,
若是,
则找出最小不平衡子树,
在保持二叉排序树特性的前提下,调整最小不平衡子树中各结点之间的链接关系,进行相应的旋转,使之成为新的平衡子树。
结点A为最小不平衡子树的根结点,对该子树进行平衡调整归纳起来有以下四种情况:

  1. LL型
    新结点插在结点A的左孩子B的左子树上,需调整一次。使结点A成为结点B的右孩子,结点B的右子树成为结点A的左子树
    在这里插入图片描述
B=A->lchild;
 A->lchild=B->rchild; 
 B->rchild=A;
A->bf=0;   B->bf=0if  (FA==NULL)   root=B; 
 else  if  (A==FA->lchild)    FA->lchild=B; 
else  FA->rchild=B; 
  1. RR型
    新结点插在结点A的右孩子的右子树上,需调整一次。使结点A成为结点B的左孩子,结点B的左子树成为结点A的右子树
    在这里插入图片描述
B=A->rchild;
 A->rchild=B->lchild;
 B->lchild=A;
 A->bf=0;   B->bf=0if  (FA==NULL)   
  root=B;else  if  (A==FA->lchild) 
    FA->lchild=B;else
    FA->rchild=B;
  1. LR型
    新结点插在结点A的左孩子的右子树上,需调整两次。 第一次调整:根结点A不动,先调整结点A的左子树。将支撑点由结点B(A的左孩子)调整到结点C(B的右孩子)处,相应地,需进行逆时针旋转。在旋转过程中,结点B和结点C的左子树发生冲突,按选择优先原则,结点B作为结点C的左孩子,C的左子树作为B的右子树。第二次调整:将支撑点由结点A调整到结点C,相应地,需进行顺时针旋转。结点A作为结点C的右孩子,结点C的右子树作为结点A的左子树。
    在这里插入图片描述
        B=A->lchild;C=B->rchild;
  B->rchild=C->lchild;
  A->lchild=C->rchild;
  C->lchild=B;    C->rchild=A; 
if (S->key <C->key)     /* 在C-L下插入S  */
   { A->bf=-1;  B->bf=0 ;  C->bf=0}
if (S->key >C->key)     /* 在C-R下插入S  */
    { A->bf=0;  B->bf=1 ;  C->bf=0}
if (S->key ==C->key)    /* C本身就是插入的新结点S */
   { A->bf=0;  B->bf=0 ;C->bf=0 } 
if  (FA==NULL)  root=C; 
   else  if (A==FA->lchild)   FA->lchild=C; 
   else  FA->rchild=C;
  1. RL型
    新结点插在结点A的右孩子的左子树上,需调整两次。第一次调整:根结点A不动,先调整结点A的右子树。将支撑点由结点B(A的右孩子)调整到结点C(B的左孩子)处,相应地,需进行顺时针旋转。在旋转过程中,结点B和结点C的右子树发生冲突,按选择优先原则,结点B作为结点C的右孩子,C的右子树作为B的左子树。第二次调整:将支撑点由结点A调整到结点C,相应地,需进行逆时针旋转。结点A作为结点C的左孩子,结点C的左子树作为结点A的右子树。
    在这里插入图片描述
        B=A->rchild;    C=B->lchild;
  B->lchild=C->rchild;
  A->rchild=C->lchild;
  C->lchild=A;  C->rchild=B;
if (S->key <C->key)     /* 在CL下插入S  */
    { A->bf=0;  B->bf=-1 ;  C->bf=0}
if (S->key >C->key)     /* 在CR下插入S  */
    { A->bf=1;  B->bf=0 ;  C->bf=0}
if (S->key ==C->key)    /* C本身就是插入的新结点S */
    { A->bf=0;  B->bf=0 ;C->bf=0 } 
        if  (FA==NULL)   root=C; 
        else  if  (A==FA->lchild)   FA->lchild=C; 
        else  FA->rchild=C;

B树

m阶B-树:是满足下列特性的树:
(1) 树中每个结点至多有m棵子树;
(2) 若根结点不是终端结点,则至少有两棵子树;
(3) 除根结点外,其他非终端结点至少有m/2 棵子树;
(4)所有非终端结点都包含以下数据:
(n,A0,K1,A1,K2,…,Kn,An)
其中,n(m/2 1≤n≤m 1)为关键码的个数;
Ki(1≤i≤n)为关键码,且Ki<Ki+1(1≤i≤n-1);
Ai(0≤i≤n)为指向子树根结点的指针,且指针Ai所指子树中所有结点的关键码均小于Ki+1大于Ki。
(5)所有叶子结点都在同一层上,B树是高平衡的。
在这里插入图片描述
B-查找与二叉树类似
B-树的插入
基本原理:
当一个节点中插入新的数据时,
会造成节点中数据个数大于(m-1),
此时需要分裂节点,
将节点中第[m/2]+1个数据插入到当前节点的前驱中(若插入到前驱结点造成前序结点数据个数大于M-1,则继续按次方法处理前驱结点),
当前节点分裂为两个节点。
B-树的删除
基本原则:在保持有序性、平衡性的前提下,进行操作
当最下层结点中的关键字数大于m/2 -1 时,可直接删除。
当最下层待删关键字所在结点中关键字数目为最低要求m/2 -1时,如果其左(右)兄弟中关键字数目大于m/2 -1,则可采用“父子换位法”。
当最下层待删结点及其左右兄弟中的关键字数目均为最低要求数目m/2 -1时,需要进行合并处理,合并过程与插入时的分裂过程“互逆”,合并一次, 分支数少一,可能出现 “连锁合并”, 当合并到根时, 各分支深度同时减1。

B+树

B+树是B-树的变体,也是一种多路搜索树;
m阶B+树的结构定义如下:
(1)每个结点至多有m个子结点;
(2)每个结点(除根外)至少有ceiling(m/2)个子结点;
(3)根结点至少有两个子结点;
(4)有k个子结点的结点必有k个关键码。

m阶B+树:是满足下列特性的树:
⑴ 含有m个关键码,每一个关键码对应一棵子树。
⑵ 关键码Ki是它所对应的子树的根结点中的最大(或最小)关键码。
⑶ 所有终端结点中包含了全部关键码信息,以及指向关键码记录的指针。
⑷ 所有终端结点按关键码的大小链在一起,形成单链表,并设置头指针。
在这里插入图片描述

B+树的查找
查找应该到叶结点层
在上层已找到待查的关键码,并不停止
而是继续沿指针向下一直查到叶结点层的这个关键码
B+树的叶结点一般链接起来,形成一个双链表
适合顺序检索(范围检索)
特点
对于阶数相同的两棵树,每个节点所包含的分支数的定义相同(不能少于m/2,不能多于m)
每个节点所包含的关键字的个数不同
B-树中,关键字不重复出现;B+树中,叶子节点存放所有的关键字,内部结点存储着其后继节点中最大的关键字
插入操作都会引起节点的分裂
删除操作都会引起节点的合并
B-树适用于随机检索;B+树支持随机和顺序检索

散列表技术

概述:

散列的基本思想:在记录的存储地址和它的关键码之间建立一个确定的对应关系。这样,不经过比较,一次读取就能得到所查元素的查找方法。
散列表:采用散列技术将记录存储在一块连续的存储空间中,这块连续的存储空间称为散列表。
散列函数:将关键码映射为散列表中适当存储位置的函数。
散列地址:由散列函数所得的存储位置址 。
散列既是一种查找技术,也是一种存储技术。散列只是通过记录的关键码定位该记录,没有完整地表达记录之间的逻辑关系,所以,散列主要是面向查找的存储结构。
散列查找的限制:
散列技术一般不适用于允许多个记录有同样关键码的情况。有冲突,降低了查找效率,体现不出计算式查找的优点。散列方法也不适用于范围查找,不能查找最大值、最小值。也不可能找到在某一范围内的记录。
散列技术的关键问题:
⑴ 散列函数的设计。如何设计一个简单、均匀、存储利用率高的散列函数。
⑵ 冲突的处理。如何采取合适的处理冲突方法来解决冲突

散列函数的构造

直接定址法
散列函数是关键码的线性函数,即:
H(key) = a key + b (a,b为常数)
适用情况:事先知道关键码,关键码集合不是很大且连续性较好。
除留余数法
散列函数:H(key) = key mod p
一般情况下,选p为小于或等于表长(最好接近表长)的最大素数
适用情况:除留余数法是一种最简单、也是最常用的构造散列函数的方法,并且不要求事先知道关键码的分布。
数字分析法
根据关键码在各个位上的分布情况,选取分布比较均匀的若干位组成散列地址。
适用情况:事先知道关键码的分布,关键码的分布均匀。
平方取中法

对关键码平方后,按散列表大小,取中间的若干位作为散列地址(平方后截取)。
适用情况:事先不知道关键码的分布且关键码的位数不是很大
折叠法(分段叠加法)

将关键码从左到右分割成位数相等的几部分,将这几部分叠加求和,取后几位作为散列地址。
适用情况:关键码位数很多,事先不知道关键码的分布。

冲突处理方法

开放地址法(闭散列法)
由关键码得到的散列地址一旦产生了冲突,就去寻找下一个空的散列地址,并将记录存入。
如何寻找下一个空的散列地址?
(1)线性探测法
当发生冲突时,从冲突位置的下一个位置起,依次寻找空的散列地址。
对于键值key,设H(key)=d,闭散列表的长度为m,则发生冲突时,寻找下一个散列地址的公式为:
Hi=(H(key)+di) % m (di=1,2,…,m-1)

int HashSearch1(int ht[ ], int m, int k) 
{
     j=H(k);  
     if (ht[j]==k) return j;   //没有发生冲突,比较一次查找成功
     i=(j+1) % m;
     while (ht[i]!=Empty && i!=j)  
     {
         if (ht[i]==k) return i;  //发生冲突,比较若干次查找成功
         i=(i+1) % m;    //向后探测一个位置
     }
     if (i==j) throw "溢出";
     else ht[i]=k;   //查找不成功时插入
}

删除
要进行标记,否则影响后面的查找工作
查找
遇到标记后,继续查找
插入
遇到标记,不能直接插入;
否在,会造成重复数据
继续,搜索
查找成功,停止插入
查找失败,进行插入

(2)二次探测法
当发生冲突时,寻找下一个散列地址的公式为:
Hi=(H(key)+di)% m
(di=12,-12,22,-22,…,q2,-q2且q≤m/2)
(3)随机探测法
当发生冲突时,下一个散列地址的位移量是一个随机数列,即寻找下一个散列地址的公式为:
Hi=(H(key)+di)% m
(di是一个随机数列,i=1,2,……,m-1)

(4)再hash法
链地址法(开散列法)
基本思想:将所有散列地址相同的记录,即所有同义词的记录存储在一个单链表中(称为同义词子表),在散列表中存储的是所有同义词子表的头指针。
用拉链法处理冲突构造的散列表叫做开散列表。
设n个记录存储在长度为m的散列表中,则同义词子表的平均长度为n / m。
建立公共溢出区
基本思想:
散列表包含基本表和溢出表两部分(通常溢出表和基本表的大小相同),
将发生冲突的记录存储在溢出表中。
查找时,对给定值通过散列函数计算散列地址,先与基本表的相应单元进行比较,若相等,则查找成功;否则,再到溢出表中进行顺序查找。

散列表性能分析

由于冲突的存在,产生冲突后的查找仍然是给定值与关键码进行比较的过程。
在查找过程中,**关键码的比较次数取决于产生冲突的概率。**而影响冲突产生的因素有:
(1)散列函数是否均匀
(2)处理冲突的方法
(3)散列表的装载因子
α=表中填入的记录数/表的长度
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
例:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值