如何得到一个数据流中的中位数?如果从数据流中读出奇数个数值,那么中位数就是所有数值排序之后位于中间的数值。如果从数据流中读出偶数个数值,那么中位数就是所有数值排序之后中间两个数的平均值。我们使用Insert()方法读取数据流,使用GetMedian()方法获取当前读取数据的中位数。
主要思想:
最大堆 | 最小堆
我们将数据分为两部分,位于左边最大堆的数据比右边最小堆的数据要小,左、右两边内部的数据没有排序,也可以根据左边最大的数及右边最小的数得到中位数。
接下来考虑用最大堆和最小堆实现的一些细节。
首先要保证数据平均分配到两个堆中
此外,还要保证最大堆中所有数据小于最小堆中数据。所以,新传入的数据需要先和最大堆的最大值或者最小堆中的最小值进行比较。以总数目为偶数为例,按照我们制定的规则,新的数据会被插入到最小堆中,但是在这之前,我们需要判断这个数据和最大堆中的最大值谁更大,如果最大堆中的数据比较大,那么我们就需要把当前数据插入最大堆,然后弹出新的最大值,再插入到最小堆中。由于最终插入到最小堆的数字是原最大堆中最大的数字,这样就保证了最小堆中所有数字都大于最大堆的数字。
large是小根堆,保存的是整个数据流里数值大的一半数。
small是大根堆,但是heapq默认是小根堆,可以用给所有数值取负数的方法,使得变成大根堆。small保存的是数据流里小的一半数据。
- 构造大根堆时,对数组元素取负值来构造 (Python的heapq默认是小根堆)
- heappush(heap,data),将deat放入大根堆中
- heapposh(heap),弹出heap中的最小值
- heappushpop(heap,data),将data放入大根堆中,再弹出堆heap的最小值
# -*- coding:utf-8 -*-
from heapq import *
class Solution:
def __init__(self):
self.heaps = [], []
def Insert(self, num):
# write code here
small, large = self.heaps
heappush(small, -heappushpop(large, num))#将num放入小根堆,并弹出小根堆的最小值,取反,放入大根堆small
# 就是要保证large的长度不小于small
# 否则第一个数据进入large就又进入small了,large就一直为空。
if len(large) < len(small):
heappush(large, -heappop(small)) #弹出small中最小的值,取反,即最大的值,放入large
def GetMedian(self,ss):
# write code here
small,large = self.heaps
# 说明这个数据流里有奇数个数值
if len(large) > len(small):
return float(large[0])
return (large[0] - small[0]) /2.0