题目介绍
295. Find Median from Data Stream
中位数是一个有序数组中中间数的值。如果数组的长度为偶数,中位数就是中间两个数的均值。
解法
这道题的解法有多种,但是推荐的解法之一就是使用大小堆进行实现。思维过程如下:
- 如果能够直接得到中位数,那么寻找中位数的操作的时间复杂度为O(1)
- 如果能够找到一种合理的插入数据的方法,则数据增加带来的复杂度就会被控制到尽可能的小
符合以上要求的数据结构之一就是堆。
什么是堆
参考资料:
数据结构中的堆和内存中的堆现在已经不是指同一个东西了,至于为什么二者都叫堆,这就需要问干这件事的前辈了。数据结构中的堆是用树来描述的。想要有一个整体的关系大家可以看一下下面的图。
堆是一颗具有特定性质的二叉树,堆的基本要求就是堆中所有结点的值必须大于或等于(或小于或等于)其孩子结点的值,这也称为堆的性质;堆还有另一个性质,就是当 h > 0 时,所有叶子结点都处于第 h 或 h - 1 层(其中 h 为树的高度,完全二叉树),也就是说,堆应该是一颗完全二叉树。由此,堆在实现时可以利用数组实现,具有很高的效率。
Python中的堆
参考资料:heapq — Heap queue algorithm
Python中利用列表实现了最小堆,并且没有实现最大堆(为什么没有,作者给了解释,可以在这里查查)。但是对于数字,我们可以取反来简单的得到最大堆。
heapq的简单教程如下:
import heapq
#----------初始化----------------
# python中堆可以用列表初始化
hp = []
# 如果列表不为空
hp = heapq.heapify([1,5,3,4,6])
#----------插入元素----------------
heapq.heappush(hp, 4)
#----------取出元素----------------
element = heapq.heappop(hp) # 该操作会将堆顶的元素删除
element = hp[0] # 这种方式可以直接获取堆顶元素,不删除
最终代码以及解释
我们维护一个最大堆和最小堆。最小堆保存已有数据中最大的一半数据,最大堆保存已有数据中最小的一半,并且我们只允许最小堆的元素个数比最大堆个数多1或者相等。由此中间数据就是最小堆的堆顶元素或者两个堆顶元素的均值。具体代码如下:
import heapq
class MedianFinder:
def __init__(self):
"""
initialize your data structure here.
"""
self.maxh = []
self.minh = []
self.length = 0
def addNum(self, num: int) -> None:
self.length += 1
if self.length == 1:
heapq.heappush(self.minh, num)
return
if num >= self.minh[0]:
heapq.heappush(self.minh, num)
if len(self.minh) > len(self.maxh) + 1:
heapq.heappush(self.maxh, -heapq.heappop(self.minh))
else:
heapq.heappush(self.maxh, -num)
if len(self.minh) < len(self.maxh):
heapq.heappush(self.minh, -heapq.heappop(self.maxh))
def findMedian(self) -> float:
if self.length % 2:
return self.minh[0]
else:
return (self.minh[0] + -self.maxh[0]) / 2
# Your MedianFinder object will be instantiated and called as such:
# obj = MedianFinder()
# obj.addNum(num)
# param_2 = obj.findMedian()