题目:如何得到一个数据流中的中位数?如果从数据流中读出奇数个数值,那么中位数就是所有数值排序之后位于中间的数值。如果从数据流中读出偶数个数值,那么中位数就是所有数值排序之后中间两个数的平均值。
分析:如果数据在容器中已经排序,定义两个指针P1、P2指向容器中间的节点(如果容器中节点数目是奇数,那么P1和P2指向同一个节点),此时整个数据容器被分隔成两部分,位于容器左边的数据比右边的数据小,P1指向的是左边部分最大的数,P2指向的是右边部分最小的数。如果能够保证数据容器左边的数据都小于右边的数据,那么即使左、右两边内部的数据没有排序,也可以根据左边最大的数P1及右边最小的数P2得到中位数。
思路:用最大堆实现左边的数据容器,因为位于堆顶的就是最大的数据;同理用一个最小堆实现右边的数据容器。往堆中插入一个数据的时间复杂度是O(logn),由于只需要O(1)的时间就可以得到位于堆顶的数据,因此得到中位数的时间复杂度是O(1)。
核心代码如下:
基于STL中的函数push_heap()、pop_heap()及vector实现堆,并通过伪函数less()和greater()来生成最大堆和最小堆。
template<typename T> class DynamicArray{
public:
void Insert(T num){
if(((max.size() + min.size()) & 1) == 0){ //数据的总数目是偶数时,把新数据num插入最小堆
if(max.size() > 0 && num < max[0]){ //如果num比最大堆中的一些数据要小
max.push_back(num); //先把num插入最大堆
push_heap(max.begin(), max.end(), less<T>()); //更新重建最大堆
num = max[0]; //令num为重建最大堆后堆中最大的元素,即max[0]
pop_heap(max.begin(), max.end(), less<T>()); //pop_heap()是在堆的基础上,弹出最大堆的堆顶元素。
//需要注意的是,pop_heap()并没有删除元素,而是将堆顶元素和数组最后一个元素进行了替换,
//如果要删除这个元素,还需要对数组进行pop_back()操作。
max.pop_back();
}
min.push_back(num); //把num插入到最小堆
push_heap(min.begin(), min.end(), greater<T>()); //更新重建最小堆
}
else{ //数据的总数目是奇数,把新数据num插入最大堆
if(min.size() > 0 && num > min[0]){ //如果num比最小堆中的一些数据要大
min.push_back(num); //先把num插入最小堆
push_heap(min.begin(), min.end(), greater<T>()); //更新重建最小堆
num = min[0]; //令num为重建最小堆后堆中最小的元素,即min[0]
//弹出最小堆的堆顶元素
pop_heap(min.begin(), min.end(), greater<T>());
min.pop_back();
}
max.push_back(num); //把num插入到最大堆
push_heap(max.begin(), max.end(), less<T>()); //更新重建最大堆
}
}
T GetMedian(){ //用来得到容器中所有数据的中位数
int size = max.size() + min.size();
if(size == 0)
throw exception("No numbers are available");
T median = 0;
if((size & 1) == 1) //数据总数目为奇数
median = min[0]; //因为数据的总数目是偶数时是把数据插入到最小堆,即奇数个数据的中位数在最小堆
else
median = (min[0] + max[0]) / 2;
return median;
}
private:
vector<T> min;
vector<T> max;
};