数据结构--堆排序

目录

1.建立堆的过程

(1)概述

(2)堆排序

2.排序逻辑

(1)结论

(2)堆调整

(3)shif实现代码

(4)创建大堆的过程

(5)处理堆顶记录

3.时间复杂度的分析

(1)向上向下调整的时间复杂度:

(2)建堆算法的时间复杂度:

4.Topk问题(排行榜的前k名次)


1.建立堆的过程

(1)概述

我们想要对于一组数据进行排列,我们就可以建堆,我们假设原来的不是一个堆,就是一个普通的数组,我们原来的数据结构如果是一个堆的话,我们是可以使用这个push一个一个的把这个数据插入进去的,但是我们这个地方是建立一个堆;

(2)堆排序

就是如果我们想要先去创建一个堆,这个时候会浪费空间,对于一个没有顺序的数组,我们的选择就是把这个序列去构建成为一个堆,找出这个时候堆里面的最大值,然后再去进行堆的调整,这个调整就是因为我们把这个最大的数值去掉之后,这个堆里面的父子关系可能就会发生改变,这个时候他就不是一个真正的堆,我们需要进行调整,使之成为一个新的堆,然后再去进行相同的操作(就是找出这个里面的最大值);

2.排序逻辑

(1)结论

升序建大堆,降序建小堆,这个就是结论,我们后续还会解释;

(2)堆调整

我们上面说过这个堆在取出里面的最大值之后,这个里面的数据就需要重新进行调整,让这个数据的序列成为一个新的堆,这个时候我们就不得不说一说这个堆调整需要满足的规则了:

在一个完全二叉树里面,首先就是这个必须要满足是一个完全二叉树,这个根节点的左右子树都是一个堆

(3)shif实现代码

这个是现在我们后续会使用到,不仅仅是堆的调整

(4)创建大堆的过程

我们首先要把一个可能是没有大小顺序的,可能不是一个标准的堆的结构通过变换成为一个堆,这个里面就需要使用一个循环;

我们本来是想要进行堆调整,但是这个不满足左右子树都是堆,我们可以变换让这个节点的左右子树都是堆,但是这个需要使用到系统栈,这个就会耗费资源,以此我们选择的就是一种非递归的,循环的方式;

为什么这个数据的小标是从1开始的,难道这个不是一个数组吗,数组的下标不应该是从0开始吗,恰恰相反,这个就是一个数组,我们这么搞就是让这个下标为0的位置不放置任何数据;

这个样的话,k=8,/2就是4,4对应的就是97这个节点,我们去变换让这个节点的子树成为一个大根堆,但是我们发现这个节点的子树就是一个大根堆,因此这个时候是不需要进行任何调整的;

进入循环k--,这个时候k的数值就是3,对应的就是65节点的子树,这个时候这个子树是不满足大根堆的定义的,因此这个时候我们需要去进行这个调整,变成一个大根堆,这个时候并不复杂,只需要把这个65,69交换一下位置即可;

接下来k--就变成为2了,这个时候的对应的就是38这个节点的子树,这个时候我们就需要多次调整,因为这个时候一次性解决不了;

接下来还是k--就是1,也就是49这个节点,我们好是需要把这个子树变成一个左子树的;

(5)处理堆顶记录

我们把这个大根堆创建完成之后,这个时候就需要进行这个堆顶和最后一个节点数据的位置转换,就是交换位置,这个时候我们原来空出来的第一个数组位置就可以作为这个中间变量;

3.时间复杂度的分析

(1)向上向下调整的时间复杂度:

因为这个时间复杂度考虑的就是最坏的打算,因此当这个树是满二叉树的时候,我们根据这个每一层里面的节点的数量去进行错位相减法的运算,假设每一次比较的时候都需要进行调整,我们这个时候的时间的复杂度就是这个满二叉树的高度,高度是多少,我们就需要进行多少次的调整;

(2)建堆算法的时间复杂度:

建堆的时候是使用一个循环,这个里面的数据要进行向上或者是向下的调整,我们上面已经说过,要想要进行这个堆的调整,我们首先需要确保这个树的根节点的左右都是一个堆,因此我们需要进行判断,但是不是从最后一层的节点开始判断,而是从第一层非叶子的最后一层节点;

第一行表示的是每一个节点的向下调整的次数的求和,我们从后向前进行分析,h-2指的就是这个倒数第一层非叶子的节点,2^h-2表示的就是这一层的节点的数量,这个时候因为是进行的向下调整,因此这一层的节点只需要和叶子结点进行调整,以此类推,时间复杂度是O(N);


上面的这个就是向上调整的时间复杂度的计算方法,因为这个里面是向上进行调整,因此这个时候需要从最后一层进行这个向上调整,最后一层是2^h-1个节点,每一个节点都需要调整的次数就是h-1次,以此类推,我们计算可以得到这个时间复杂度就是n*log2N;

实际上,在这个完全二叉树里面,最后一层的这个节点的数量占据这个节点总数量的50%以上的,对于这个向下调整,这么多的节点是不需要进行任何的操作的;

向下调整的时间复杂度计算的时候,拥有节点数量多的层级*调整次数少,而对于这个向上调整,是拥有节点数量多的层*调整次数多,这个时候我们就已经可以推断出来再处理这个堆的创建上面,向上调整算法是没有占到优势的,向下调整的时间复杂度会更低;

4.Topk问题(排行榜的前k名次)

(1)思路,创建小堆,可能我们最开始的思路是创建大堆,然后一个一个的pop堆顶数据(因为这个情况下面我们的大堆的堆顶数据是最大的,我们pop10次数据就可以选出来了);

但是这个消耗大量的内存空间,我们只需要创建一个含有k个元素的小堆,这个数据全部是存储在一个文件里面,我们让这个剩下的n-k个数据和已有的元素进行比较,如果这个文件里面的数据比我们的小堆里面的数据大,我们就把这个元素添加到这个小堆里面的,把原来的小队里面的堆顶数据替换掉;

(2)创建含有k个元素的大堆,我们需要popk次,删除的时候这个新的数据需要调整,还要满足一个大堆,这个时候我们删除时,是把这个堆顶元素和最后一个叶子结点元素相互换位置,然后把这个size--,这个时候,我们换上去的对顶元素肯定不是最大的,这个时候进行的就是向下调整,我们可以直接套用上面计算的实际复杂度;

创建小堆,我们需要把和堆顶替换掉的元素进行向下调整,因此两个方法的时间复杂度是相差不大的,主要是在空间复杂度上面提高了不少的;

最后留在这个小堆里面的数据就是我们想要的所有数据里面的前k大的数据; 

  • 30
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值