堆排序就是这么容易

可能部分图片上传不成功

前言

声明:参考来源互联网,有任何争议可以留言。站在前人的肩上,我们才能看的更远。

本教程纯手打,致力于最实用教程,不需要什么奖励,只希望多多转发支持。
欢迎来我公众号,希望可以结识你,也可以催更,微信搜索:JavaPub

有任何问题都可以来谈谈 !

在这里插入图片描述

堆排序在常用排序算法中属于比较难理解的,本篇就以最简单的方式讲解。如果还有什么疑问,

1.什么是堆?

  • 弄清楚**堆排序以前,我们先要知道什么是**?

堆是具有以下性质的完全二叉树:每个结点的值都大于或等于其左右孩子结点的值,称为大顶堆;或者每个结点的值都小于或等于其左右孩子结点的值,称为小顶堆。

下图:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ryNDVF0L-1592534927430)(大顶堆.jpg)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LyP4sXDA-1592534927435)(小顶堆.jpg)]

简单用公式描述一下就是:

大顶堆:arr[i] >= arr[2i+1] && arr[i] >= arr[2i+2]

小顶堆:arr[i] <= arr[2i+1] && arr[i] <= arr[2i+2]

问题二:什么是**完全二叉树**?

百度百科:

一棵深度为k的有n个结点的二叉树,对树中的结点按从上至下、从左到右的顺序进行编号,如果编号为i(1≤i≤n)的结点与满二叉树中编号为i的结点在二叉树中的位置相同,则这棵二叉树称为完全二叉树。

2.堆排序

百度百科:

堆排序(英语:Heapsort)是指利用堆这种数据结构所设计的一种排序算法。堆是一个近似完全二叉树的结构,并同时满足堆积的性质:即子结点的键值或索引总是小于(或者大于)它的父节点。

堆排序是利用这种数据结构而设计的一种排序算法,堆排序是一种选择排序,它的最坏,最好,平均时间复杂度均为O(nlogn),它也是不稳定排序

3.原理

堆排序的基本思想是:将待排序序列构造成一个大顶堆,此时,整个序列的最大值就是堆顶的根节点。将其与末尾元素进行交换,此时末尾就为最大值。然后将剩余n-1个元素重新构造成一个堆,这样会得到n个元素的次小值。如此反复执行,便能得到一个有序序列了

步骤一 构造初始堆。将给定无序序列构造成一个大顶堆(一般升序采用大顶堆,降序采用小顶堆)。

a.假设给定无序序列结构如下
  
  在这里插入图片描述
  
  b.此时我们从最后一个非叶子结点开始(叶结点自然不用调整,第一个非叶子结点 arr.length/2-1=5/2-1=1,也就是下面的6结点),从左至右,从下至上进行调整。
  
  在这里插入图片描述
  
  c.找到第二个非叶节点4,由于[4,9,8]中9元素最大,4和9交换。
  
  在这里插入图片描述
  
  d.这时,交换导致了子根[4,5,6]结构混乱,继续调整,[4,5,6]中6最大,交换4和6。
  
  在这里插入图片描述
  
  此时,就将一个无需序列构造成了一个大顶堆。

步骤二 将堆顶元素与末尾元素进行交换,使末尾元素最大。然后继续调整堆,再将堆顶元素与末尾元素交换,得到第二大元素。如此反复进行交换、重建、交换。

a.将堆顶元素9和末尾元素4进行交。
  
  [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ogTty27t-1592534927463)(步骤二a.png)]
  
  b.重新调整结构,使其继续满足堆定义。
  
  [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Iu9awmmh-1592534927465)(步骤二b.png)]
  
  c.再将堆顶元素8与末尾元素5进行交换,得到第二大元素8。
  
  [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bgWmIdBm-1592534927469)(步骤二c.png)]
  
  后续过程,继续进行调整,交换,如此反复进行,最终使得整个序列有序。
  
  [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nEs3BD5x-1592534927473)(步骤二d.png)]

-  再简单总结下堆排序的基本思路:

a.将无需序列构建成一个堆,根据升序降序需求选择大顶堆或小顶堆;

b.将堆顶元素与末尾元素交换,将最大元素"沉"到数组末端;

c.重新调整结构,使其满足堆定义,然后继续交换堆顶元素与当前末尾元素,反复执行调整+交换步骤,直到整个序列有序。

4.代码

代码是基于 Java语言。

package cn.javapub;

import java.util.Arrays;

public class HeapSort {

    public int[] sort(int[] sourceArray) throws Exception {
        // 对 arr 进行拷贝,不改变参数内容
        int[] arr = Arrays.copyOf(sourceArray, sourceArray.length);

        int len = arr.length;

        //构建大顶堆
        buildMaxHeap(arr, len);

        //调整堆结构+交换堆顶元素与末尾元素
        for (int i = len - 1; i > 0; i--) {
            swap(arr, 0, i);//将堆顶元素与末尾元素进行交换
            len--;
            heapify(arr, 0, len);//重新对堆进行调整
        }
        return arr;
    }

    private void buildMaxHeap(int[] arr, int len) {
        for (int i = (int) Math.floor(len / 2); i >= 0; i--) {
            //从第一个非叶子结点从下至上,从右至左调整结构
            heapify(arr, i, len);
        }
    }

    //调整大顶堆
    private void heapify(int[] arr, int i, int len) {
        int left = 2 * i + 1;
        int right = 2 * i + 2;
        int largest = i;

        if (left < len && arr[left] > arr[largest]) {
            largest = left;
        }

        if (right < len && arr[right] > arr[largest]) {
            largest = right;
        }

        if (largest != i) {
            swap(arr, i, largest);
            heapify(arr, largest, len);
        }
    }
    
    //交换元素
    private void swap(int[] arr, int i, int j) {
        int temp = arr[i];
        arr[i] = arr[j];
        arr[j] = temp;
    }

    public static void main(String[] args) throws Exception {
        int[] arr = {5, 1, 4, 2, 3};
        HeapSort heapSort = new HeapSort();
        int[] sort = heapSort.sort(arr);
        System.out.println(Arrays.toString(sort));
    }

}

返回结果:

[1, 2, 3, 3, 5]

5.最后

​ 堆排序是一种选择排序,整体主要由构建初始堆+交换堆顶元素和末尾元素并重建堆两部分组成。其中构建初始堆经推导复杂度为O(n),在交换并重建堆的过程中,需交换n-1次,而重建堆的过程中,根据完全二叉树的性质,[log2(n-1),log2(n-2)…1]逐步递减,近似为nlogn。所以堆排序时间复杂度一般认为就是O(nlogn)级。

6.扩展阅读

光说不练假把式,看看下面题目。

题目1亿 数据中找出 k 大的数据(内存不够的情境,磁盘足够大)

  • 方法一:在内存中新建一个 k小顶锥,如果插入的元素比锥顶大,则把锥顶的元素扔掉,然后重新调整使其变成小顶锥,重复该过程,最后剩下的 k 个元素就是最大的。

同理,当找出k个最小数字的话,意味着剩下的这k个数组元素为最小的,这就要确保每次排序要把大的都扔掉,因此要新建大顶堆。

  • 方法二:采用分治法,划分为若干个小文件(通常利用hash(x)%M,m是划分的大小,来进行划分),每个文件依次找出前k大个,然后放在一起再找出k大个。每次文件找出k大个,可以利用快速排序,每次 快速排序 分为两部分(一边是小的,一边是大的),如果大的部分长度大于k,接着利用快速排序,直到大的部分小于k(假设为n)(说明这些肯定是这么多数中最大的),然后对剩下的部分进行快排,找出前(k-n)个最大的,然后在对剩下的进行快排,最后会发现递归到最后,只需要找到最大的那个数就行了。这种思想是分治思想,一直分下去。

  • 方法三:hash,采用hash主要是先去重,然后再利用分治或者是堆排序进行查找。

这个题目受限于内存不够情况,当足够大内存和多核情况,我们可以划分成一个个小任务单独执行,最后一个线程再合并。

(1)单机+单核+足够大内存
如果需要查找10亿个查询次(每个占8B)中出现频率最高的10个,考虑到每个查询词占8B,则10亿个查询次所需的内存大约是10^9 * 8B=8GB内存。如果有这么大内存,直接在内存中对查询次进行排序,顺序遍历找出10个出现频率最大的即可。这种方法简单快速,使用。然后,也可以先用HashMap求出每个词出现的频率,然后求出频率最大的10个词。

(2)单机+多核+足够大内存
这时可以直接在内存总使用Hash方法将数据划分成n个partition,每个partition交给一个线程处理,线程的处理逻辑同(1)类似,最后一个线程将结果归并。
该方法存在一个瓶颈会明显影响效率,即数据倾斜。每个线程的处理速度可能不同,快的线程需要等待慢的线程,最终的处理速度取决于慢的线程。而针对此问题,解决的方法是,将数据划分成c×n个partition(c>1),每个线程处理完当前partition后主动取下一个partition继续处理,知道所有数据处理完毕,最后由一个线程进行归并。

(3)单机+单核+受限内存
这种情况下,需要将原数据文件切割成一个一个小文件,如次啊用hash(x)%M,将原文件中的数据切割成M小文件,如果小文件仍大于内存大小,继续采用Hash的方法对数据文件进行分割,知道每个小文件小于内存大小,这样每个文件可放到内存中处理。采用(1)的方法依次处理每个小文件。

(4)多机+受限内存
这种情况,为了合理利用多台机器的资源,可将数据分发到多台机器上,每台机器采用(3)中的策略解决本地的数据。可采用hash+socket方法进行数据分发。

对于这类问题,更好解决方案是使用 MapReduce 处理任务。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

JavaPub-rodert

谢谢老板

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值