堆排序也是一种O(nlogn)时间的算法,相比归并排序,它具有原地排序的性质。实际应用中有时不需要获得整个集合的排序,只需要求集合前k个最大元素,这种情况下选用堆排序是比较合适的。
算法思想:
堆的概念:二叉堆类似一棵完全二叉树,每个节点最多可以有两个子节点。则对于最大(小)堆,每个节点的key值必须大(小)于它的子节点。有了这样一个堆之后,虽然还无法得到准确的排序结果,但至少知道节点值越接近根越大(小),最大(小)必然对应根节点。
存储结构:可以使用连续存储空间,因为堆中每个节点序号与其位置一一对应。例如数组array[0,...,n],则第k个节点的两个子节点(如果存在)下标分别为2*k + 1(左)和2*k + 2(右),其父节点下标为(k-1)/2向下取整。
堆排序利用了选择排序的思想,只是它选择最值元素的方式是通过堆来实现,而非逐个比较。每次只取出堆顶元素,然后将剩余元素重新建堆,如此往复,可依次获得第k大的元素(k=1,2,3,...n),这些元素依次存放便构成有序序列。
算法步骤:
1、按照堆的性质对所有元素建立一个最大堆,则堆顶元素为最大元素
2、将堆顶元素堆底末位元素交换,对除末位之外的元素重复1、2中过程,直到最后一个元素
代码实例:
#define SWAP(A, B) do{(A) ^= (B); (B) ^= (A); (A) ^= (B);} while(0)
void heapify(int array[], int len, int i) {
int child;
while((child = 2*i + 1) < len) {//左子节点对应2*i + 1
if(child < len - 1) {//若child = len-1,此时无右孩子
if(array[child] < array[child+1]){//比较左右孩子
child++;
}
}
if(array[i] >= array[child]) {//父节点已到达合适位置
break;
}
SWAP(array[i], array[child]);//父节点与较大的子节点易位
i = child;
}
}
void heap_sort(int array[], int len){
//建立最大堆
int i;
for(i = len/2; i >= 0; i--) {
heapify(array, len, i);
}
//选择&排序
while(len > 1) {
SWAP(array[0], array[len-1]);//将最大元素保存在末尾
heapify(array, --len, 0);//对剩余元素重新建堆
}
}
以上代码仅仅表述了堆排序的基本思路,效率不高,实际应用还有待进行多种优化。
复杂度分析:
由二叉堆性质,堆高度为logn,一个元素要到达合适的位置需要logn次比较,建立堆的过程,需要让n个元素都到达合适的位置,故建立堆的时间复杂度为O(nlogn);有了一个堆后,每次只需让堆顶的元素下降到合适的位置即可,这一过程重复n次,且每次堆的规模都在减少,所以排序过程的复杂度小于O(nlogn),前后两个阶段复杂度加起来仍是O(nlogn)。总共进行的比较次数小于2nlogn,不需要额外空间。
重要性质:
1、原地排序
2、非稳定排序——显而易见,每次进行的堆顶元素与末尾元素交换破坏了稳定性