堆排序
堆
什么是堆?
堆和栈是计算机的两种最基本的数据结构。
堆的特点就是FIFO(first in first out)先进先出(这里是便于大家理解下面的排序过程,实际的堆结构是完全二叉树,数据的存取可认为是无序的)。
栈的特性是属于FILO(first in/last out)先进后出的类型,感兴趣的同学下去可以自行google。
堆(定义):(二叉)堆数据结构是一个数组对象,可以视为一棵完全二叉树。如果根结点的值大于(小于)其它所有结点,并且它的左右子树也满足这样的性质,那么这个堆就是大(小)根堆。
大致的排序过程如下:
堆排序节点访问
在这里我们借用wiki的定义来说明:
通常堆是通过一维数组来实现的。在阵列起始位置为0的情况中
- 父节点i的左子节点在位置(2*i+1);
- 父节点i的右子节点在位置(2*i+2);
- 子节点i的父节点在位置(i-1)//2;
堆排序操作的意义
堆可以分为大根堆和小根堆,这里用大根堆的情况来定义操作:
(1)大根堆调整(max_heapify):
将堆的末端子节点作调整,使得子节点永远小于父节点。这是核心步骤,在建堆和堆排序都会用到。
比较
i
i
i 的根节点和与其所对应
i
i
i 的孩子节点的值,当
i
i
i 根节点的值比左孩子节点的值要小的时候,就把
i
i
i 根节点和左孩子节点所对应的值交换,同理,就把i根节点和右孩子节点所对应的值交换。
然后再调用堆调整这个过程,可见这是一个递归的过程。
def max_heapify(heap,heapSize,root): # 调整列表中的元素并保证以root为根的堆是一个大根堆
'''
给定某个节点的下标root,这个节点的父节点、左子节点、右子节点的下标都可以被计算出来。
父节点:(root-1)//2
左子节点:2*root + 1
右子节点:2*root + 2 即:左子节点 + 1
'''
left = 2*root + 1
right = left + 1
larger = root
# 小根堆只需要把下面and后面的条件改成:heap[larger] < heap[left] 和 heap[larger] < heap[right]
# 当然,为了能见名知义,可以把larger换成smaller
if left < heapSize and heap[larger] < heap[left]:
larger = left
if right < heapSize and heap[larger] < heap[right]:
larger = right
if larger != root: # 如果做了堆调整则larger的值等于左节点或者右节点的值,这个时候做堆调整操作,交换此时的最大值到root节点
heap[larger], heap[root] = heap[root], heap[larger]
# 递归的对子树做调整
max_heapify(heap, heapSize, larger)
(2)建立大根堆(build_max_heap):
将堆中所有的数据重新排序。建堆的过程其实就是不断做大根堆调整的过程,从(heapSize -2)//2处开始调整,一直调整到第一个根节点。
def build_max_heap(heap): # 构造一个堆,将堆中所有数据重新排序
heapSize = len(heap)
for i in range((heapSize -2)//2,-1,-1): # 自底向上建堆
max_heapify(heap, heapSize, i)
(3)堆排序(heap_sort):
得到大根堆之后,我们知道了根节点(即列表的第一个元素)的值是最大的,若想将待排序数组按照从小到大的方式进行排序,可将根节点取出与最后一位做对调,此时我们打乱了大根堆的顺序,接下来我们只需要将前
n
−
1
n-1
n−1 个元素继续进行大根堆的构建,然后再将根节点与当前第
n
−
1
n-1
n−1 个元素调换位置,即可得到原数组第二大的元素,以此类推,最终的数组即可变成有序数组。
堆排序流程梳理:
首先建堆,然后将堆的根节点选出与最后一个节点进行交换,然后将前面
l
e
n
(
h
e
a
p
)
−
1
len(heap)-1
len(heap)−1 个节点继续做堆调整,直到将所有的节点取出,对于有
n
n
n 个元素的一维数组我们只需要做
n
−
1
n-1
n−1 次操作。
import random
def heap_sort(heap): # 将根节点取出与最后一位做对调,对前面len-1个节点继续进行堆调整过程。
build_max_heap(heap)
# 调整后列表的第一个元素就是这个列表中最大的元素,将其与最后一个元素交换,然后将剩余的列表再递归的调整为最大堆
for i in range(len(heap)-1, -1, -1):
heap[0], heap[i] = heap[i], heap[0]
max_heapify(heap, i, 0)
# 测试
if __name__ == '__main__':
a = [30, 50, 57, 77, 62, 78, 94, 80, 84]
print(a)
heap_sort(a)
print(a)
b = [random.randint(1,666) for i in range(666)]
print(b)
heap_sort(b)
print(b)
这里用网上的一张比较直观的图来展示一下堆排序的过程:
时间复杂度
堆排序的时间复杂度分为两个部分一个是建堆的时候所耗费的时间,一个是进行堆调整的时候所耗费的时间。而堆排序则是调用了建堆和堆调整。
刚刚在上面也提及到了,建堆是一个线性过程,从 l e n ( h e a p S i z e ) / 2 len(heapSize)/2 len(heapSize)/2 一直调用堆调整的过程,相当于 O ( h 1 ) + O ( h 2 ) + … + O ( h l e n ( h e a p S i z e ) / 2 ) O(h_1) + O(h_2) + … + O(h_{len(heapSize)/2}) O(h1)+O(h2)+…+O(hlen(heapSize)/2) 这里的 h h h 表示节点深度, l e n ( h e a p S i z e ) / 2 len(heapSize)/2 len(heapSize)/2 表示节点最大深度,对于求和过程,与数组长度 h e a p S i z e heapSize heapSize 线性相关,时间复杂度为 O ( n ) O(n) O(n) 。
堆调整为一个递归的过程,调整堆的过程时间复杂度与堆的深度有关系,相当于 l o g n logn logn 的操作。
因为建堆的时间复杂度是 O ( n ) O(n) O(n) ,调整堆的时间复杂度是 O ( l o g n ) O(logn) O(logn) ,所以堆排序的时间复杂度是 O ( n l o g n ) O(nlogn) O(nlogn) 。