堆排序就是这么容易

最新推荐文章于 2020-11-17 21:16:08 发布

JavaPub-rodert

最新推荐文章于 2020-11-17 21:16:08 发布

阅读量380

点赞数

分类专栏： pdf 算法基础文章标签：排序算法 java 算法数据结构二叉树

JavaPub 分享技术和副业，搜索、爬虫、逆向、web等，及服务端技术教程。

本文链接：https://blog.csdn.net/qq_40374604/article/details/106851839

版权

pdf 同时被 2 个专栏收录

11 篇文章 0 订阅

订阅专栏

算法基础

10 篇文章 0 订阅

订阅专栏

可能部分图片上传不成功

文章目录

前言
1.什么是堆？
2.堆排序
3.原理
4.代码
5.最后
6.扩展阅读

前言

声明：参考来源互联网，有任何争议可以留言。站在前人的肩上，我们才能看的更远。

本教程纯手打，致力于最实用教程，不需要什么奖励，只希望多多转发支持。
欢迎来我公众号，希望可以结识你，也可以催更，微信搜索：JavaPub

有任何问题都可以来谈谈！

在这里插入图片描述

堆排序在常用排序算法中属于比较难理解的，本篇就以最简单的方式讲解。如果还有什么疑问，

1.什么是堆？

弄清楚**堆排序以前，我们先要知道什么是堆**？

堆是具有以下性质的完全二叉树：每个结点的值都大于或等于其左右孩子结点的值，称为大顶堆；或者每个结点的值都小于或等于其左右孩子结点的值，称为小顶堆。

下图：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ryNDVF0L-1592534927430)(大顶堆.jpg)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LyP4sXDA-1592534927435)(小顶堆.jpg)]

简单用公式描述一下就是：

大顶堆：arr[i] >= arr[2i+1] && arr[i] >= arr[2i+2]

小顶堆：arr[i] <= arr[2i+1] && arr[i] <= arr[2i+2]

问题二：什么是**完全二叉树**？

百度百科:

一棵深度为k的有n个结点的二叉树，对树中的结点按从上至下、从左到右的顺序进行编号，如果编号为i（1≤i≤n）的结点与满二叉树中编号为i的结点在二叉树中的位置相同，则这棵二叉树称为完全二叉树。

2.堆排序

百度百科:

堆排序（英语：Heapsort）是指利用堆这种数据结构所设计的一种排序算法。堆是一个近似完全二叉树的结构，并同时满足堆积的性质：即子结点的键值或索引总是小于（或者大于）它的父节点。

堆排序是利用堆这种数据结构而设计的一种排序算法，堆排序是一种选择排序，它的最坏，最好，平均时间复杂度均为O(nlogn)，它也是不稳定排序。

3.原理

堆排序的基本思想是：将待排序序列构造成一个大顶堆，此时，整个序列的最大值就是堆顶的根节点。将其与末尾元素进行交换，此时末尾就为最大值。然后将剩余n-1个元素重新构造成一个堆，这样会得到n个元素的次小值。如此反复执行，便能得到一个有序序列了

步骤一 构造初始堆。将给定无序序列构造成一个大顶堆（一般升序采用大顶堆，降序采用小顶堆)。

a.假设给定无序序列结构如下
　　
　　在这里插入图片描述
　　
　　b.此时我们从最后一个非叶子结点开始（叶结点自然不用调整，第一个非叶子结点 arr.length/2-1=5/2-1=1，也就是下面的6结点），从左至右，从下至上进行调整。
　　
　　
　　
　　c.找到第二个非叶节点4，由于[4,9,8]中9元素最大，4和9交换。
　　
　　在这里插入图片描述
　　
　　d.这时，交换导致了子根[4,5,6]结构混乱，继续调整，[4,5,6]中6最大，交换4和6。
　　
　　
　　
　　此时，就将一个无需序列构造成了一个大顶堆。

步骤二 将堆顶元素与末尾元素进行交换，使末尾元素最大。然后继续调整堆，再将堆顶元素与末尾元素交换，得到第二大元素。如此反复进行交换、重建、交换。

a.将堆顶元素9和末尾元素4进行交。
　　
　　[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ogTty27t-1592534927463)(步骤二a.png)]
　　
　　b.重新调整结构，使其继续满足堆定义。
　　
　　[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Iu9awmmh-1592534927465)(步骤二b.png)]
　　
　　c.再将堆顶元素8与末尾元素5进行交换，得到第二大元素8。
　　
　　[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bgWmIdBm-1592534927469)(步骤二c.png)]
　　
　　后续过程，继续进行调整，交换，如此反复进行，最终使得整个序列有序。
　　
　　[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nEs3BD5x-1592534927473)(步骤二d.png)]

-　　再简单总结下堆排序的基本思路：

a.将无需序列构建成一个堆，根据升序降序需求选择大顶堆或小顶堆;

b.将堆顶元素与末尾元素交换，将最大元素"沉"到数组末端;

c.重新调整结构，使其满足堆定义，然后继续交换堆顶元素与当前末尾元素，反复执行调整+交换步骤，直到整个序列有序。

4.代码

代码是基于 Java语言。

package cn.javapub;

import java.util.Arrays;

public class HeapSort {

    public int[] sort(int[] sourceArray) throws Exception {
        // 对 arr 进行拷贝，不改变参数内容
        int[] arr = Arrays.copyOf(sourceArray, sourceArray.length);

        int len = arr.length;

        //构建大顶堆
        buildMaxHeap(arr, len);

        //调整堆结构+交换堆顶元素与末尾元素
        for (int i = len - 1; i > 0; i--) {
            swap(arr, 0, i);//将堆顶元素与末尾元素进行交换
            len--;
            heapify(arr, 0, len);//重新对堆进行调整
        }
        return arr;
    }

    private void buildMaxHeap(int[] arr, int len) {
        for (int i = (int) Math.floor(len / 2); i >= 0; i--) {
            //从第一个非叶子结点从下至上，从右至左调整结构
            heapify(arr, i, len);
        }
    }

    //调整大顶堆
    private void heapify(int[] arr, int i, int len) {
        int left = 2 * i + 1;
        int right = 2 * i + 2;
        int largest = i;

        if (left < len && arr[left] > arr[largest]) {
            largest = left;
        }

        if (right < len && arr[right] > arr[largest]) {
            largest = right;
        }

        if (largest != i) {
            swap(arr, i, largest);
            heapify(arr, largest, len);
        }
    }
    
    //交换元素
    private void swap(int[] arr, int i, int j) {
        int temp = arr[i];
        arr[i] = arr[j];
        arr[j] = temp;
    }

    public static void main(String[] args) throws Exception {
        int[] arr = {5, 1, 4, 2, 3};
        HeapSort heapSort = new HeapSort();
        int[] sort = heapSort.sort(arr);
        System.out.println(Arrays.toString(sort));
    }

}

返回结果：

[1, 2, 3, 3, 5]

5.最后

堆排序是一种选择排序，整体主要由构建初始堆+交换堆顶元素和末尾元素并重建堆两部分组成。其中构建初始堆经推导复杂度为O(n)，在交换并重建堆的过程中，需交换n-1次，而重建堆的过程中，根据完全二叉树的性质，[log2(n-1),log2(n-2)…1]逐步递减，近似为nlogn。所以堆排序时间复杂度一般认为就是O(nlogn)级。

6.扩展阅读

光说不练假把式，看看下面题目。

题目：1亿 数据中找出 k 大的数据（内存不够的情境，磁盘足够大）

方法一：在内存中新建一个 k 的小顶锥，如果插入的元素比锥顶大，则把锥顶的元素扔掉，然后重新调整使其变成小顶锥，重复该过程，最后剩下的 k 个元素就是最大的。

同理，当找出k个最小数字的话，意味着剩下的这k个数组元素为最小的，这就要确保每次排序要把大的都扔掉，因此要新建大顶堆。

方法二：采用分治法，划分为若干个小文件（通常利用hash（x）%M，m是划分的大小，来进行划分），每个文件依次找出前k大个，然后放在一起再找出k大个。每次文件找出k大个，可以利用快速排序，每次快速排序分为两部分（一边是小的，一边是大的），如果大的部分长度大于k，接着利用快速排序，直到大的部分小于k（假设为n）（说明这些肯定是这么多数中最大的），然后对剩下的部分进行快排，找出前（k-n）个最大的，然后在对剩下的进行快排，最后会发现递归到最后，只需要找到最大的那个数就行了。这种思想是分治思想，一直分下去。
方法三：hash，采用hash主要是先去重，然后再利用分治或者是堆排序进行查找。

这个题目受限于内存不够情况，当足够大内存和多核情况，我们可以划分成一个个小任务单独执行，最后一个线程再合并。

（1）单机+单核+足够大内存
如果需要查找10亿个查询次（每个占8B）中出现频率最高的10个，考虑到每个查询词占8B，则10亿个查询次所需的内存大约是10^9 * 8B=8GB内存。如果有这么大内存，直接在内存中对查询次进行排序，顺序遍历找出10个出现频率最大的即可。这种方法简单快速，使用。然后，也可以先用HashMap求出每个词出现的频率，然后求出频率最大的10个词。

（2）单机+多核+足够大内存
这时可以直接在内存总使用Hash方法将数据划分成n个partition，每个partition交给一个线程处理，线程的处理逻辑同（1）类似，最后一个线程将结果归并。
该方法存在一个瓶颈会明显影响效率，即数据倾斜。每个线程的处理速度可能不同，快的线程需要等待慢的线程，最终的处理速度取决于慢的线程。而针对此问题，解决的方法是，将数据划分成c×n个partition（c>1），每个线程处理完当前partition后主动取下一个partition继续处理，知道所有数据处理完毕，最后由一个线程进行归并。

（3）单机+单核+受限内存
这种情况下，需要将原数据文件切割成一个一个小文件，如次啊用hash(x)%M，将原文件中的数据切割成M小文件，如果小文件仍大于内存大小，继续采用Hash的方法对数据文件进行分割，知道每个小文件小于内存大小，这样每个文件可放到内存中处理。采用（1）的方法依次处理每个小文件。

（4）多机+受限内存
这种情况，为了合理利用多台机器的资源，可将数据分发到多台机器上，每台机器采用（3）中的策略解决本地的数据。可采用hash+socket方法进行数据分发。

对于这类问题，更好解决方案是使用 MapReduce 处理任务。

JavaPub-rodert

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
堆排序就是这么容易

可能部分图片上传不成功文章目录前言1.什么是堆？2.堆排序3.原理4.代码5.最后6.扩展阅读前言声明：参考来源互联网，有任何争议可以留言。站在前人的肩上，我们才能看的更远。本教程纯手打，致力于最实用教程，不需要什么奖励，只希望多多转发支持。欢迎来我公众号，希望可以结识你，也可以催更，微信搜索：JavaPub有任何问题都可以来谈谈！堆排序在常用排序算法中属于比较难理解的，本篇就以最简单的方式讲解。如果还有什么疑问，1.什么是堆？弄清楚**堆排序以前，我们先要知道.
复制链接

扫一扫