【剑指offer】数据流中的中位数(堆、排序)

题目描述:
如何得到一个数据流中的中位数?如果从数据流中读出奇数个数值,那么中位数就是所有数值排序之后位于中间的数值。如果从数据流中读出偶数个数值,那么中位数就是所有数值排序之后中间两个数的平均值。我们使用Insert()方法读取数据流,使用GetMedian()方法获取当前读取数据的中位数。

方法一:暴力方法
对于一组数据,我们可以用vector arr来存取。如果对vector排好序,则很容易求出中位数。如果vector的大小为sz。

如果sz为奇数,假如为3,即[0 1 2],则中位数就是中间的那个数arr[1]。
如果sz为偶数,假如为4,即[0 1 2 3], 则中位数就是中间两个数的加权平均数。即 (arr[1] + arr[2]) / 2

class Solution {
public:
    #define SCD static_cast<double>
    vector<int> v;
    void Insert(int num)
    {
        v.push_back(num);
    }

    double GetMedian()
    { 
        sort(v.begin(), v.end());//sort排序,默认排序方法从小到大
        int sz = v.size();
        if (sz & 1) //位运算  二进制的最后一位是0的话那么就为偶数。是1的话就为奇数,二进制除了最后一位,其他位都是2的幂次方,必然是为偶数。&1后,奇数为1,偶数为0.
        {
            return SCD(v[sz >> 1]);//奇数
        }
        else {
            return SCD(v[sz >> 1] + v[(sz - 1) >> 1]) / 2;//偶数
        }
    }
};

方法二:插入排序
对于方法一,可以发现有个优化的地方。
方法一中GetMEdian()操作,是每次都对整个vector调用排序操作。
但是其实每次都是在一个有序数组中插入一个数据。因此可以用插入排序。
所以:

Insert()操作可改为插入排序
GetMedian()操作可直接从有序数组中获取中位数

class Solution {
public:
    #define SCD static_cast<double>
    vector<int> v;
    void Insert(int num)
    {
        if (v.empty()) {
            v.push_back(num);
        }
        else {
        	lower_bound(起始地址,结束地址,要查找的数值) 返回的是数值 第一个 出现的位置。即每次将num插入到第一个>=某数的后面,做到从小到大的排序。
            auto it = lower_bound(v.begin(), v.end(), num);
            v.insert(it, num);
        }
    }

    double GetMedian()
    { 
        int sz = v.size();
        if (sz & 1) {
            return SCD(v[sz >> 1]);
        }
        else {
            return SCD(v[sz >> 1] + v[(sz - 1) >> 1]) / 2;
        }
    }

};

二分查找的函数有 3 个:

lower_bound(起始地址,结束地址,要查找的数值) 返回的是数值 第一个 出现的位置。

upper_bound(起始地址,结束地址,要查找的数值) 返回的是 第一个大于待查找数值 出现的位置。

binary_search(起始地址,结束地址,要查找的数值) 返回的是是否存在这么一个数,是一个bool值。

注意:使用二分查找的前提是数组有序。
C++ lower_bound 与 upper_bound 函数

方法三:堆
堆结构小根堆,大根堆
中位数是指:有序数组中中间的那个数。则根据中位数可以把数组分为如下三段:
[0 … median - 1], [median], [median … arr.size() - 1],即[中位数的左边,中位数,中位数的右边]

那么,如果我有个数据结构保留[0…median-1]的数据,并且可以O(1)时间取出最大值,即arr[0…median-1]中的最大值
相对应的,如果我有个数据结构可以保留[median + 1 … arr.size() - 1] 的数据, 并且可以O(1)时间取出最小值,即
arr[median + 1 … arr.size() - 1] 中的最小值。
然后,我们把[median]即中位数,随便放到哪个都可以。

假设[0 … median - 1]的长度为l_len, [median + 1 … arr.sise() - 1]的长度为 r_len.
1.如果l_len == r_len + 1, 说明,中位数是左边数据结构的最大值
2.如果l_len + 1 == r_len, 说明,中位数是右边数据结构的最小值
3.如果l_len == r_len, 说明,中位数是左边数据结构的最大值与右边数据结构的最小值的平均值。

说了这么多,一个数据结构可以O(1)返回最小值的,其实就是小根堆,O(1)返回最大值的,其实就是大根堆。并且每次插入到堆中的时间复杂度为O(logn)

所以,GetMedian()操作算法过程为:

初始化一个大根堆,存中位数左边的数据,一个小根堆,存中位数右边的数据
动态维护两个数据结构的大小,即最多只相差一个

class Solution {
public:
    #define SCD static_cast<double>
    priority_queue<int> min_q; // 大顶推
    priority_queue<int, vector<int>, greater<int>> max_q; // 小顶堆

    void Insert(int num)
    {

        min_q.push(num); // 试图加入到大顶推

        // 平衡一个两个堆
        max_q.push(min_q.top()); 
        min_q.pop();

        if (min_q.size() < max_q.si***_q.push(max_q.top());
            max_q.pop();
        }

    }

    double GetMedian()
    { 
        return min_q.size() > max_q.size() ? SCD(min_q.top()) : SCD(min_q.top() + max_q.top()) / 2;
    }

};

官方题解

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值