leetcode 295. 数据流的中位数
中位数是有序列表中间的数。如果列表长度是偶数,中位数则是中间两个数的平均值。
例如,
[2,3,4] 的中位数是 3
[2,3] 的中位数是 (2 + 3) / 2 = 2.5
设计一个支持以下两种操作的数据结构:
void addNum(int num) - 从数据流中添加一个整数到数据结构中。
double findMedian() - 返回目前所有元素的中位数。
示例:
addNum(1)
addNum(2)
findMedian() -> 1.5
addNum(3)
findMedian() -> 2
进阶:
如果数据流中所有整数都在 0 到 100 范围内,你将如何优化你的算法?
如果数据流中 99% 的整数都在 0 到 100 范围内,你将如何优化你的算法?
思路
根据只需获得中间数的想法,可以将数据分为左右两边,一边以最大堆的形式实现,可以快速获得左侧最大数, 另一边则以最小堆的形式实现。其中需要注意的一点就是左右侧数据的长度差不能超过1。
满足两个特性:
- 大顶堆中最大的数值小于等于小顶堆中的最小数,也就是小于小顶堆的堆顶
- 两个堆中元素相差为0,或者为1,不能>1
然后,我们观察可以发现:
- 如果,数据总数是偶数,那么大顶堆,和小顶堆,一边占一半元素,而且,还是有序的,很像二分法,这时,中位数为两堆顶平均值
- 如果数据个数为奇数,则,中位数出现在元素个数多的堆的堆顶中
python默认小顶堆,对于如何实现大顶堆,
- 添加元素进去时,取反,
- 取出元素时,也取反
代码实现
具体实现可以加入以下技巧:
每次都将元素插入到最小堆,然后将最小堆的栈顶元素取出,放到最大堆中,这样就能保证最小堆的堆顶元素都比最大堆的堆顶大
如果最大堆元素个数大于最小堆,那么将最大堆堆顶元素弹出,放进最小堆,使得最小堆元素个数大于等于最大堆元素个数.
class MedianFinder:
def __init__(self):
"""
initialize your data structure here.
"""
self.max_heap = []
self.min_heap = []
heapq.heapify(self.max_heap)
heapq.heapify(self.min_heap)
def addNum(self, num: int) -> None:
heapq.heappush(self.min_heap, num)
mini = heapq.heappop(self.min_heap)
heapq.heappush(self.max_heap, -mini)
if len(self.min_heap) < len(self.max_heap):
heapq.heappush(self.min_heap, -heapq.heappop(self.max_heap))
def findMedian(self) -> float:
max_len = len(self.max_heap)
min_len = len(self.min_heap)
if max_len != min_len:
return self.min_heap[0] * 1.0
else:
return (self.min_heap[0] - self.max_heap[0]) / 2.0