排序基础 - [ 二 ] -归并#快排#如何用快排思想在O(n)内查找第K大元素？

泰山与水

已于 2022-06-05 20:39:21 修改

阅读量373

点赞数

分类专栏：算法 # 排序文章标签：排序算法算法数据结构

于 2022-05-08 14:40:34 首次发布

本文链接：https://blog.csdn.net/cqupt2012214390/article/details/124647941

版权

算法同时被 2 个专栏收录

56 篇文章 0 订阅

订阅专栏

排序

4 篇文章 0 订阅

订阅专栏

归并排序和快速排序。这两种排序算法适合大规模的数据排序，比冒泡排序、插入排序、选择排序这三种排序算法要更常用；

分治思想。分治，顾名思义，就是分而治之，将一个大问题分解成小的子问题来解决。小的子问题解决了，大问题也就解决了。分治思想跟递归思想很像，分治算法一般都是用递归来实现的。分治是一种解决问题的处理思想，递归是一种编程技巧；

归并排序的原理

归并排序的核心思想还是蛮简单的。如果要排序一个数组，我们先把数组从中间分成前后两部分，然后对前后两部分分别排序，再将排好序的两部分合并在一起，这样整个数组就都有序了。

递推公式


递推公式：
merge_sort(p…r) = merge(merge_sort(p…q), merge_sort(q+1…r))

终止条件：
p >= r 不用再继续分解

分治伪代码


// 归并排序算法, A是数组，n表示数组大小
merge_sort(A, n) {
  merge_sort_c(A, 0, n-1)
}

// 递归调用函数
merge_sort_c(A, p, r) {
  // 递归终止条件
  if p >= r  then return

  // 取p到r之间的中间位置q
  q = (p+r) / 2
  // 分治递归
  merge_sort_c(A, p, q)
  merge_sort_c(A, q+1, r)
  // 将A[p...q]和A[q+1...r]合并为A[p...r]
  merge(A[p...r], A[p...q], A[q+1...r])
}

合并伪代码


merge(A[p...r], A[p...q], A[q+1...r]) {
  var i := p，j := q+1，k := 0 // 初始化变量i, j, k
  var tmp := new array[0...r-p] // 申请一个大小跟A[p...r]一样的临时数组
  while i<=q AND j<=r do {
    if A[i] <= A[j] {
      tmp[k++] = A[i++] // i++等于i:=i+1
    } else {
      tmp[k++] = A[j++]
    }
  }
  
  // 判断哪个子数组中有剩余的数据
  var start := i，end := q
  if j<=r then start := j, end:=r
  
  // 将剩余的数据拷贝到临时数组tmp
  while start <= end do {
    tmp[k++] = A[start++]
  }
  
  // 将tmp中的数组拷贝回A[p...r]
  for i:=0 to r-p do {
    A[p+i] = tmp[i]
  }
}

完整代码实现

package algorithm.sortBase;

public class Solution_1 {

    public static void main(String[] args) {
        int arrays[] = new int[]{11, 8, 3, 9, 7, 1, 2, 5};
        new Solution_1().merge_sort(arrays, arrays.length);
    }


    /**
     * 归并排序算法, arrays是数组，length表示数组大小
     */
    public void merge_sort(int[] arrays, int length) {
        merge_sort_c(arrays, 0, length - 1);

        for (int i = 0; i < length; i++) {
            System.out.print(arrays[i] + "  ");
        }
    }

    // 递归调用函数
    public void merge_sort_c(int[] arrays, int startIndex, int endIndex) {
        // 递归终止条件
        if (startIndex >= endIndex) {
            return;
        }

        // 取startIndex 到 endIndex之间的中间位置 mid， 为了防止益处，这里可以 mid = startIndex + (endIndex - startIndex) / 2
        int mid = (startIndex + endIndex) / 2;

        // 分治递归
        merge_sort_c(arrays, startIndex, mid);

        merge_sort_c(arrays, mid + 1, endIndex);

        // 将arrays[startIndex...mid] 和 arrays[mid+1...endIndex] 合并为 arrays[startIndex...endIndex]
        merge(arrays, startIndex, mid, mid + 1, endIndex);
    }


    public void merge(int[] arrays, int start1, int end1, int start2, int end2) {
        // 初始化变量i, j, k
        int i = start1;
        int j = start2;
        int k = 0;

        // 申请一个大小跟 arrays[startIndex...endIndex]一样的临时数组
        int[] tmp = new int[end2 - start1 + 1];
        while (i <= end1 && j <= end2) {
            if (arrays[i] <= arrays[j]) {
                tmp[k++] = arrays[i++]; // i++ 等于 i=i+1
            } else {
                tmp[k++] = arrays[j++];
            }
        }


        // 判断哪个子数组中有剩余的数据
        int remainStart = i, remainEnd = end1;//默认第一个数组有剩余
        if (j <= end2) {
            //第二个数组有剩余
            remainStart = j;
            remainEnd = end2;
        }


        // 将剩余的数据拷贝到临时数组tmp
        while (remainStart <= remainEnd) {
            tmp[k++] = arrays[remainStart++];
        }

        // 将tmp中的数组拷贝回arrays[start1...end2]
        for (int m = 0; m <= end2 - start1; m++) {
            arrays[start1 + m] = tmp[m];
        }
    }
}

归并排序的性能分析

第一，归并排序是稳定的排序算法吗？

归并排序稳不稳定关键要看 merge() 函数，也就是两个有序子数组合并成一个有序数组的那部分代码；在合并的过程中，如果 A[p...q]和 A[q+1...r]之间有值相同的元素，那我们可以像伪代码中那样，先把 A[p...q]中的元素放入 tmp 数组。这样就保证了值相同的元素，在合并前后的先后顺序不变。所以，归并排序是一个稳定的排序算法。

第二，归并排序的时间复杂度是多少？

12 | 排序（下）：如何用快排思想在O(n)内查找第K大元素？-极客时间

归并排序的执行效率与要排序的原始数组的有序程度无关，所以其时间复杂度是非常稳定的，不管是最好情况、最坏情况，还是平均情况，时间复杂度都是 O(nlogn)

第三，归并排序的空间复杂度是多少？

归并排序的时间复杂度任何情况下都是 O(nlogn)，看起来非常优秀。（待会儿你会发现，即便是快速排序，最坏情况下，时间复杂度也是 O(n2)。）但是，归并排序并没有像快排那样，应用广泛，这是为什么呢？因为它有一个致命的“弱点”，那就是归并排序不是原地排序算法。

继续按照分析递归时间复杂度的方法，通过递推公式来求解，那整个归并过程需要的空间复杂度就是 O(nlogn)。不过，类似分析时间复杂度那样来分析空间复杂度，这个思路对吗？

实际上，递归代码的空间复杂度并不能像时间复杂度那样累加。刚刚我们忘记了最重要的一点，那就是，尽管每次合并操作都需要申请额外的内存空间，但在合并完成之后，临时开辟的内存空间就被释放掉了。在任意时刻，CPU 只会有一个函数在执行，也就只会有一个临时的内存空间在使用。临时内存空间最大也不会超过 n 个数据的大小，所以空间复杂度是 O(n)。

快速排序的原理

我们再来看快速排序算法（Quicksort），我们习惯性把它简称为“快排”。快排利用的也是分治思想。乍看起来，它有点像归并排序，但是思路其实完全不一样；

快排的思想是这样的：如果要排序数组中下标从 p 到 r 之间的一组数据，我们选择 p 到 r 之间的任意一个数据作为 pivot（分区点）。我们遍历 p 到 r 之间的数据，将小于 pivot 的放到左边，将大于 pivot 的放到右边，将 pivot 放到中间。经过这一步骤之后，数组 p 到 r 之间的数据就被分成了三个部分，前面 p 到 q-1 之间都是小于 pivot 的，中间是 pivot，后面的 q+1 到 r 之间是大于 pivot 的；

根据分治、递归的处理思想，我们可以用递归排序下标从 p 到 q-1 之间的数据和下标从 q+1 到 r 之间的数据，直到区间缩小为 1，就说明所有的数据都有序了


递推公式：
quick_sort(p…r) = quick_sort(p…q-1) + quick_sort(q+1… r)

终止条件：
p >= r

递推公式转化成递归代码


// 快速排序，A是数组，n表示数组的大小
quick_sort(A, n) {
  quick_sort_c(A, 0, n-1)
}
// 快速排序递归函数，p,r为下标
quick_sort_c(A, p, r) {
  if p >= r then return
  
  q = partition(A, p, r) // 获取分区点
  quick_sort_c(A, p, q-1)
  quick_sort_c(A, q+1, r)
}

public int partition(int[] arrays, int start, int end) {
        int pivot = arrays[end];
        int i = start;
        for (int j = start; j <= end - 1; j++) {
            if (arrays[j] < pivot) {
                swap(arrays, i, j);
                i++;
            }
        }
        swap(arrays, i, end);
        return i;
    }

    public void swap(int[] arrays, int i, int j) {
        int temp = arrays[i];
        arrays[i] = arrays[j];
        arrays[i] = temp;
    }

归并排序中有一个 merge() 合并函数，我们这里有一个 partition() 分区函数。partition() 分区函数实际上我们前面已经讲过了，就是随机选择一个元素作为 pivot（一般情况下，可以选择 p 到 r 区间的最后一个元素），然后对 A[p...r]分区，函数返回 pivot 的下标；

原地分区函数的实现伪代码


partition(A, p, r) {
  pivot := A[r]
  i := p
  for j := p to r-1 do {
    if A[j] < pivot {
      swap A[i] with A[j]
      i := i+1
    }
  }
  swap A[i] with A[r]
  return i

数组的插入操作在数组某个位置插入元素，需要搬移数据，非常耗时。一种处理技巧，就是交换，在 O(1) 的时间复杂度内完成插入操作。这里我们也借助这个思想，只需要将 A[i]与 A[j]交换，就可以在 O(1) 时间复杂度内将 A[j]放到下标为 i 的位置。

因为分区的过程涉及交换操作，如果数组中有两个相同的元素，比如序列 6，8，7，6，3，5，9，4，在经过第一次分区操作之后，两个 6 的相对先后顺序就会改变。所以，快速排序并不是一个稳定的排序算法。

归并排序的处理过程是由下到上的，先处理子问题，然后再合并。而快排正好相反，它的处理过程是由上到下的，先分区，然后再处理子问题。归并排序虽然是稳定的、时间复杂度为 O(nlogn) 的排序算法，但是它是非原地排序算法。我们前面讲过，归并之所以是非原地排序算法，主要原因是合并函数无法在原地执行。快速排序通过设计巧妙的原地分区函数，可以实现原地排序，解决了归并排序占用太多内存的问题

快速排序的性能分析

快排的时间复杂度也是 O(nlogn)。

举一个比较极端的例子。如果数组中的数据原来已经是有序的了，比如 1，3，5，6，8。如果我们每次选择最后一个元素作为 pivot，那每次分区得到的两个区间都是不均等的。我们需要进行大约 n 次分区操作，才能完成快排的整个过程。每次分区我们平均要扫描大约 n/2 个元素，这种情况下，快排的时间复杂度就从 O(nlogn) 退化成了 O(n2)。

T(n) 在大部分情况下的时间复杂度都可以做到 O(nlogn)，只有在极端情况下，才会退化到 O(n2)。而且，我们也有很多方法将这个概率降到很低，如何来做？我们后面章节再讲。

代码完整实现

内容小结

归并排序和快速排序是两种稍微复杂的排序算法，它们用的都是分治的思想，代码都通过递归来实现，过程非常相似。理解归并排序的重点是理解递推公式和 merge() 合并函数。同理，理解快排的重点也是理解递推公式，还有 partition() 分区函数。归并排序算法是一种在任何情况下时间复杂度都比较稳定的排序算法，这也使它存在致命的缺点，即归并排序不是原地排序算法，空间复杂度比较高，是 O(n)。正因为此，它也没有快排应用广泛。