堆是一种经过排序的完全二叉树。大根堆:双亲结点的值大于等于其孩子结点的值,根结点(堆顶)为最大;小根堆则相反。下面以大根堆为例进行说明。
堆排序步骤:
(1) 建堆:从最后一个非终端结点开始,依次退到前一个结点直至堆顶。每趟以其为根结点,比较其和左右孩子的大小,若不是最大的,则将最大的孩子与根结点交换,并以被交换的孩子结点的位置作为根结点向下递归。
(2) 堆顶换出并调整:将堆顶和当前堆的最后一个结点交换,使其并入到后面的有序区域,再对前面的无序区域进行调整,从堆顶开始走一趟即可。循环此步骤至完全有序。
示例:
初始序列数组为4 5 3 0 1 7 2 6,对应的初始堆如图所示,经过建堆过程得到第二棵树,此时堆顶7与最后的0交换并出堆,得到的序列分为无序和有序两个部分,堆对应无序的部分,之后进行调整再得到一个大根堆,再不断出堆和调整,最后得到的序列为有序的。
C代码如下:
void Sift(int R[], int low, int high)
{ //调整函数(一趟)
int i = low, j = 2*i; //R[j]是R[i]左孩子
int temp = R[i];
while(j <= high){
if(j < high && R[j] < R[j+1]) //若右孩子较大,则j指向右孩子
++j;
if(temp < R[j]){
R[i] = R[j]; i = j; //将孩子作为父结点
j = 2*i; //指定新的孩子结点
}
else break;
}//while
R[i] = temp; //被调整结点的值放入最终位置
}//Sift
void heapSort(int R[], int n)
{ //堆排序函数
int i;
int temp;
for(i = n/2-1; i >= 0; --i) //建立初始堆(从最后一个非终端结点开始)
Sift(R,i,n-1);
for(i = n-1; i >= 0; --i){ //不断换出根节点至有序区域
temp = R[0];
R[0] = R[i];
R[i] = temp;
Sift(R,0,i-1); //在减少了1个元素的序列中进行调整
}
}//end
堆排序在海量数据处理的TOP-N问题中常用,通常采用含有N个元素的小根堆,在遍历过程中每个元素只与堆顶比较,若大于堆顶则入堆,否则不入堆并遍历下一个,效率很高。