1. 简介
堆排序是建立在堆这种数据结构基础上的选择排序,是原址排序,时间复杂度O(nlogn),堆排序并不是一种稳定的排序方式。堆排序中通常使用的堆为最大堆。
2. 堆的定义
堆是一种数据结构,是一颗特殊的完全二叉树,通常分为最大堆和最小堆。最大堆的定义为根结点最大,且根结点左右子树都是最大堆;同样,最小堆的定义为根结点最小,且根结点左右子树均为最小堆。
最大堆满足其每一个父结点均大于其左右子结点,最小堆则满足其每一个父结点均小于其左右子结点。
3. 堆排序
3.1 堆的存放
在堆排序中,堆所表示的二叉树并不需要使用指针的方式在计算机中存放,只需要使用数组即可,将树的结点,从上至下,从左至右一个个放到数组中去。
因此,如果数组的起始索引为0,对于一个结点i来说,它的父结点索引为[(i-1)/2],它的左子结点索引为2i+1,右子结点索引为2i+2。最后一个非叶子节点就是最后一个结点的父亲,如果数组长度为n,那么其索引为[(n-2)/2]。
3.2 堆排序主要步骤
- 将无序序列构建成最大堆
- 将数组分成两个区域,有序区和无序区,初始时创建一个整数i为数组的长度,用来划分有序区和无序区,有序区初始为空。
- 将堆顶元素和最后一个无序区的元素交换,然后i-1。
- 调整使得所有无序区的元素重新为最大堆。
- 重复3,4步,直到 i = 0
3.3 堆的调整
假设有某棵完全二叉树,其左右子树均为最大堆,如何调整使得该二叉树成为最大堆呢?如果根结点大于左右子结点,那么已经是最大堆了,无需调整。否则,交换根结点和左右子结点中较大的那个。假设交换的是左结点,那么目前这棵完全二叉树右子树仍然是一个最大堆,左子树则不一定,但是左子树的左右子树还是最大堆,因此不断递归下去调整即可。
因此,交换最后一个元素和堆顶元素后的调整步骤,就和上面所说的一致。而将无序序列构建成最大堆,同样也可以运用这一点。从最后一个非叶子结点到第一个非叶子结点(根结点),对这些结点作为根结点的子树,按顺序调用一次上述描述的调整即可(每次调用时,该子树的左右子树必定是最大堆)。
4. 算法实现
#include <iostream>
using namespace std;
//左右子树都是最大堆,从上至下调整使得最大堆, root是要调整的树的根节点,length是无序区的长度
template<typename T>
void adjust(T *array,int root,int length) {
if(length == 0)
return;
int left_child = 2*root+1;
int right_child = 2*root+2;
int left_adjust = 1,right_adjust = 1;
if(left_child >= length || !(array[root] < array[left_child]))
left_adjust = 0;
if(right_child >= length || !(array[root] < array[right_child]))
right_adjust = 0;
if(left_adjust+right_adjust == 0)
return;
else if(left_adjust*right_adjust == 1) {
if(array[left_child] >= array[right_child])
right_adjust = 0;
else
left_adjust = 0;
}
if(left_adjust) {
swap(array[left_child],array[root]);
adjust(array,left_child,length);
} else {
swap(array[right_child],array[root]);
adjust(array,right_child,length);
}
}
//heapsort主递归,每一次将无序区最后一个元素与堆顶元素交换
//将堆顶元素加入有序区,因此有序区加1,无序区减1,无序区只剩一个元素的时候递归终止
template<typename T>
void heapSortMain(T *array,int length) {
if(length <= 1)
return;
swap(array[0],array[length-1]);
adjust(array,0,length-1);
heapSortMain(array,length-1);
}
//入口函数,array是待排序的数组,length是其长度
template<typename T>
void heapSort(T *array,int length) {
if(array == NULL || length <= 1)
return;
for(int i = (length-2)/2;i >= 0;i--)
adjust(array,i,length);
heapSortMain(array,length);
}
int main() {
int a[10] = {7,6,3,4,5,8};
heapSort(a,10);
for(int i = 0;i < 10;i++)
cout << a[i] << " ";
cout << endl;
}
5.堆排序性质
- 时间复杂度O(nlogn)
每次调整,是沿着树的某一分支一直往下的,按最坏的情况计算,是O(logn)的复杂度。 初始化需要⌊(n-1)/2⌋次调整,后面则需要n-1次调整,每次调整即有一个输出,因此最坏情况下是O(nlogn)的复杂度。另外,建堆的均摊时间复杂度是O(n)而不是O(nlogn),分析比较复杂,这里不展开。 - 空间复杂度O(1)
空间复杂度可以明显地从算法中看出,不管待排序列多大,只需要常数个额外的空间即可,因此是原地排序。 - 不稳定排序
堆排序显然不是稳定排序,这点举个反例即可简单认证。假设某个初始序列就是最大堆了,对于[3,2,1,2],第一层子节点的2反而会先与堆顶交换,从而排到后面去。
6.视觉效果
下图清楚地展示了初始最大堆,堆顶和无序区最后一个元素交换后调整,不断循环直至有序的过程。