分类目录:《系统学习Python》总目录
相关文章:
·堆(一):基础知识
·堆(二):维护堆的性质
·堆(三):建堆
·堆(四):优先队列
·排序算法:堆排序
·利用heapq模块实现堆
我们在《算法设计与分析》系列中详细介绍了堆这种数据结构以及堆排序的相关知识。现在,我们利用heapq
模块实现了堆队列算法(优先队列算法)。
正如《堆(一):基础知识》所述,堆是一个二叉树,它的每个父节点的值都只会小于或等于所有孩子节点的值。 它使用了数组来实现:从零开始计数,对于所有的 k k k ,都有 h e a p [ k ] ≤ h e a p [ 2 ∗ k + 1 ] heap[k]\leq heap[2*k+1] heap[k]≤heap[2∗k+1]和 h e a p [ k ] ≤ h e a p [ 2 ∗ k + 2 ] heap[k]\leq heap[2*k+2] heap[k]≤heap[2∗k+2]。 为了便于比较,不存在的元素被认为是无限大。 堆最有趣的特性在于最小的元素总是在根结点 h e a p [ 0 ] heap[0] heap[0]。
heapq
模块实现的堆与《算法设计与分析》系列中的堆算法实现有所不同,具体区别有两方面:
- 我们使用了从零开始的索引。这使得节点和其孩子节点索引之间的关系不太直观但更加适合,因为 Python 使用从零开始的索引。
- 我们的
pop
方法返回最小的项而不是最大的项。我们的文章中称其为“最小堆”,而我们的文章主要讨论的是“最大堆”,因为它更适用于原地排序。
基于这两方面,把堆看作原生的Pythonlist
也没什么奇怪的:heap[0]
表示最小的元素,同时heap.sort()
维护了堆的不变性!
要创建一个堆,可以使用list
来初始化为[]
,或者你可以通过一个函数heapify()
,来把一个list
转换成堆。
heapq
模块定义了以下函数:
heapq.heappush(heap, item)
:将item
的值加入heap
中,保持堆的不变性。heapq.heappop(heap)
:弹出并返回heap
的最小的元素,保持堆的不变性。如果堆为空,抛出IndexError
。使用heap[0]
,可以只访问最小的元素而不弹出它。heapq.heappushpop(heap, item)
:将item
放入堆中,然后弹出并返回heap
的最小元素。该组合操作比先调用heappush()
再调用heappop()
运行起来更有效率。heapq.heapify(x)
:将[list]:x
转换成堆。heapq.heapreplace(heap, item)
:弹出并返回heap
中最小的一项,同时推入新的item
。 堆的大小不变。 如果堆为空则引发IndexError
。这个单步骤操作比heappop()
加heappush()更
高效,并且在使用固定大小的堆时更为适宜。pop
/push
组合总是会从堆中返回一个元素并将其替换为item
。返回的值可能会比添加的item
更大。 如果不希望如此,可考虑改用heappushpop()
。 它的push
/pop
组合会返回两个值中较小的一个,将较大的值留在堆中。
该模块还提供了三个基于堆的通用功能函数:
heapq.merge(*iterables, key=None, reverse=False)
:将多个已排序的输入合并为一个已排序的输出(例如,合并来自多个日志文件的带时间戳的条目)。 返回已排序值的iterator
。类似于sorted(itertools.chain(*iterables))
但返回一个可迭代对象,不会一次性地将数据全部放入内存,并假定每个输入流都是已排序的)。具有两个可选参数,它们都必须指定为关键字参数:key
指定带有单个参数的key function
,用于从每个输入元素中提取比较键。 默认值为None
(直接比较元素)。reverse
为一个布尔值。 如果设为True
,则输入元素将按比较结果逆序进行合并。要达成与sorted(itertools.chain(*iterables), reverse=True)
类似的行为,所有可迭代对象必须是已从大到小排序的。
heapq.nlargest(n, iterable, key=None)
:从iterable
所定义的数据集中返回前n
个最大元素组成的列表。 如果提供了key
则其应指定一个单参数的函数,用于从iterable
的每个元素中提取比较键,其等价于:sorted(iterable, key=key, reverse=True)[:n]
。heapq.nsmallest(n, iterable, key=None)
:从iterable
所定义的数据集中返回前n
个最小元素组成的列表。 如果提供了key
则其应指定一个单参数的函数,用于从iterable
的每个元素中提取比较键。其等价于:sorted(iterable, key=key)[:n]
。
后两个函数在n
值较小时性能最好。 对于更大的值,使用sorted()
函数会更有效率。 此外,当n==1
时,使用内置的min()
和max()
函数会更有效率。 如果需要重复使用这些函数,请考虑将可迭代对象转为真正的堆。
基本示例
堆排序可以通过将所有值推入堆中然后每次弹出一个最小值项来实现。
def heapsort(iterable):
h = []
for value in iterable:
heappush(h, value)
return [heappop(h) for i in range(len(h))]
这类似于sorted(iterable)
,但与sorted()
不同的是这个实现是不稳定的。
heapsort([1, 3, 5, 7, 9, 2, 4, 6, 8, 0])
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
堆元素可以为元组。 这适用于将比较值(例如任务优先级)与跟踪的主记录进行赋值的场合:
h = []
heappush(h, (5, 'write code'))
heappush(h, (7, 'release product'))
heappush(h, (1, 'write spec'))
heappush(h, (3, 'create tests'))
heappop(h)
输出:
(1, 'write spec')