BM48 数据流中的中位数
中位数是有序列表中间的数。如果列表长度是偶数,中位数则是中间两个数的平均值。
例如,
[2,3,4] 的中位数是 3
[2,3] 的中位数是 (2 + 3) / 2 = 2.5
设计一个支持以下两种操作的数据结构:
void addNum(int num) - 从数据流中添加一个整数到数据结构中。
double findMedian() - 返回目前所有元素的中位数。
示例:
addNum(1)
addNum(2)
findMedian() -> 1.5
addNum(3)
findMedian() -> 2
进阶:
如果数据流中所有整数都在 0 到 100 范围内,你将如何优化你的算法?
如果数据流中 99% 的整数都在 0 到 100 范围内,你将如何优化你的算法?
解题思路:
优先队列
用以下方式维护两个堆:
- 用于存储输入数字中较小一半的最大堆
- 用于存储输入数字的较大一半的最小堆
添加一个数 num:
将 num 添加到最大堆 lo。因为 lo 收到了一个新元素,所以我们必须为 hi 做一个平衡步骤。因此,从 lo 中移除最大的元素并将其提供给 hi。
在上一个操作之后,最小堆 hi 可能会比最大堆 lo 保留更多的元素。我们通过从 hi 中去掉最小的元素并将其提供给 lo 来解决这个问题。
Python代码:
import heapq
class MedianFinder:
def __init__(self):
"""
initialize your data structure here.
"""
self.count = 0
self.maxheap = []
self.minheap = []
def addNum(self, num: int) -> None:
self.count += 1
heapq.heappush(self.maxheap, (-num, num))
_, max_top = heapq.heappop(self.maxheap)
heapq.heappush(self.minheap, max_top)
if self.count % 2 == 1:
min_top = heapq.heappop(self.minheap)
heapq.heappush(self.maxheap, (-min_top, min_top))
def findMedian(self) -> float:
if self.count % 2 == 1:
return self.maxheap[0][1]
else:
return (self.maxheap[0][1] + self.minheap[0]) / 2
# Your MedianFinder object will be instantiated and called as such:
# obj = MedianFinder()
# obj.addNum(num)
# param_2 = obj.findMedian()