寻找中位值

问题:

  设有一个算法Median能在O(n)的时间内计算一个数组的中位值(即将数组的元素按大小顺序排列正好位于中间的值)。给定一个有n个元素的数组,能否以Median算法为基础设计一个算法,对任意的整数1≤i≤n,该算法在O(n)的时间内求出数组中第i大小的元素。如果能,请给出一个这样的算法并分析其最坏时间复杂性。

算法设计:

  最简单的方法便是先对数组进行排序,然后进行输出。但这并非最好的方法,因为有一部分数据的比较对于此问题是没有实际作用的。我们利用快速排序将整个数组进行排序,我们每次比较完毕后会将数组分为两个部分,我们无需处理不包含第i元素的部分,因此我们需要设计一个基于快速排序的查找算法。

  我们首先将数组的第一个设为key,从左往右查找比key大的数,从右往左查找比key小的数,如果i<j说明

伪码:

复制代码
sort(left,right,p){ //p为所求位置
    int i=left;
    int j=right;
    key=A[left];
    while(1){
        while(j>left && key<a[j]) j--;
        while(i<right && key>a[i]) i++;
        if(i<j) exchang a[i],a[j];
        else break;
    }
    exchang(key,a[j]);
    
    if(p==j) return key;
    else if(p<j) return sort(left,j-1,p);
    else return sort(j+1,right,p);
}
复制代码

平均性能分析:

  我们每次将问题的规模划分为两部分,在这种情况下我们的时间的递归式为:T(n)=T(n/2)+θ(n),其中θ(n)为每层的规模,因为我们只需判断两部分中的其中一部分则,T(n)在T(n)=T(9n/10)+c*9/10n和T(n)=T(n/10)+c*1/10n之间,根据主定理,a<b所以T(n)=O(n),满足题目要求.

  当求第i个数组中的元素,在其最坏情况时,T(n)=T(9n/10)+c*9/10n,复杂度依然为0(n).


===============================================================================================================================================================================================================================================================================================================

【分步详解】两个有序数组中的中位数和Top K问题

(这也是一道leetcode的经典题目:《LeetCode》解题笔记:004. Median of Two Sorted Arrays[H]

问题介绍

这是个超级超级经典的分治算法!!这个问题大致是说,如何在给定的两个有序数组里面找其中的中值,或者变形问题,如何在2个有序数组数组中查找Top K的值(Top K的问题可以转换成求第k个元素的问题)。这个算法在很多实际应用中都会用到,特别是在当前大数据的背景下。

我觉得下面的这个思路特别好,特别容易理解!!请按顺序看。是来自leetcode上的stellari英文答案,我整理并自己修改了一下。

预备知识

先解释下“割”

我们通过切一刀,能够把有序数组分成左右两个部分,切的那一刀就被称为割(Cut),割的左右会有两个元素,分别是左边最大值和右边最小值。
我们定义L = Max(LeftPart),R = Min(RightPart)

Ps. 割可以割在两个数中间,也可以割在1个数上,如果割在一个数上,那么这个数即属于左边,也属于右边。(后面讲单数组中值问题的时候会说)

比如说[2 3 5 7]这个序列,割就在3和5之间
[2 3 / 5 7]
中值就是(3+5)/2 = 4

如果[2 3 4 5 6]这个序列,割在4上,我们可以把4分成2个
[2 3 (4/4) 5 7]
中值就是(4+4)/2 = 4

这样可以保证不管中值是1个数还是2个数都能统一运算。

割和第k个元素

对于单数组,找其中的第k个元素特别好做,我们用割的思想就是:

常识1:如果在k的位置割一下,然后A[k]就是L。换言之,就是如果左侧有k个元素,A[k]属于左边部分的最大值。(都是明显的事情,这个不用解释吧!)


双数组

我们设:
Ci

为第i个数组的割。
Li为第i个数组割后的左元素.
Ri

为第i个数组割后的右元素。

这里写图片描述

如何从双数组里取出第k个元素

这里写图片描述

  1. 首先Li<=Ri
是肯定的(因为数组有序,左边肯定小于右边)如果我们让 L1<=R2 && L2<=R1

  1. 那么左半边 全小于右半边,如果左边的元素个数相加刚好等于k,那么第k个元素就是Max(L1,L2),参考上面常识1。
  2. 如果 L1>R2,说明数组1的左边元素太大(多),我们把C1减小,把C2增大。L2>R1同理,把C1增大,C2减小。

假设k=3

对于
[1 4 7 9]


[2 3 5]

设C1 = 2,那么C2 = k-C1 = 1
[1 4/7 9]


[2/3 5]

这时候,L1(4)>R2(3),说明C1要减小,C2要增大,C1 = 1,C2=k-C1 = 2
[1/4 7 9]


[2 3/5]

这时候,满足了L1<=R2

&& L2<=R1

,第3个元素就是Max(1,3) = 3。

如果对于上面的例子,把k改成4就恰好是中值

下面具体来看特殊情况的中值问题。

双数组的奇偶

中值的关键在于,如何处理奇偶性,单数组的情况,我们已经讨论过了,那双数组的奇偶问题怎么办,m+n为奇偶处理方案都不同。

让数组恒为奇数

有没有办法让两个数组长度相加一定为奇数或偶数呢?

其实有的,虚拟加入‘#'(这个trick在manacher算法中也有应用),让数组长度恒为奇数(2n+1恒为奇数)。
Ps.注意是虚拟加,其实根本没这一步,因为通过下面的转换,我们可以保证虚拟加后每个元素跟原来的元素一一对应

映射关系

这有什么好处呢,为什么这么加?因为这么加完之后,每个位置可以通过/2得到原来元素的位置。

在虚拟数组里表示“割”

不仅如此,割更容易,如果割在‘#'上等于割在2个元素之间,割在数字上等于把数字划到2个部分。

奇妙的是不管哪种情况

Li = (Ci-1)/2
Ri = Ci/2

例:

  1. 割在4/7之间‘#',C = 4,L=(4-1)/2=1 ,R=4/2=2
    刚好是4和7的原来位置!
  2. 割在3上,C = 3,L=(3-1)/2=1,R=3/2 =1,刚好都是3的位置!

剩下的事情就好办了,把2个数组看做一个虚拟的数组A,目前有2m+2n+2个元素,割在m+n+1处,所以我们只需找到m+n+1位置的元素和m+n+2位置的元素就行了。
左边:A[m+n] = Max(L1+L2)
右边:A[m+n+1] = Min(R1+R2)

Mid = (A[m+n]+A[m+n+1])/2
= (Max(L1+L2) + Min(R1+R2) )/2

至于在两个数组里找割的方案,就是上面的方案。

分治的思路

有了上面的知识后,现在的问题就是如何利用分治的思想。

怎么分?

最快的分的方案是二分,有2个数组,我们对哪个做二分呢?
根据之前的分析,我们知道了,只要C1或C2确定,另外一个也就确定了。这里,为了效率,我们肯定是选长度较短的做二分,假设为C1。

怎么治?

也比较简单,我们之前分析了:就是比较L1,L2和R1,R2。

  • L1>R2,把C1减小,C2增大—> C1向左二分
  • L2>R1,把C1增大,C2减小—> C1向右二分

越界问题

如果C1或C2已经到头了怎么办?
这种情况出现在:如果有个数组完全小于或大于中值。可能有4种情况:

  • C1 = 0 —— 数组1整体都比中值大,L1 >R2,中值在2中
  • C2 = 0 —— 数组1整体都比中值小,L1 <R2,中值在1中
  • C1 = n*2 —— 数组1整体都比中值小,L1 <R2,中位数在2中
  • C2 = m*2 —— 数组1整体都比中值大,L1 >R2,中位数在1中

考虑下面两种情况了,解决方案:

  • 如果C1 = 0 —> 那么我们缩小L1,L1 = INT_MIN,保证判断正确。
  • 如果C1 = n*2 —> 那么我们增大R1,R1 = INT_MAX,保证判断正确。

剩下两种情况解决方案类似。

代码

    double findMedianSortedArrays(vector<int>& nums1, vector<int>& nums2) {
        int n = nums1.size();
        int m = nums2.size();
        if(n > m)   //保证数组1一定最短
            return findMedianSortedArrays(nums2,nums1);
        int L1,L2,R1,R2,c1,c2,lo = 0, hi = 2*n;  //我们目前是虚拟加了'#'所以数组1是2*n+1长度
        while(lo <= hi)   //二分
        {
            c1 = (lo+hi)/2;  //c1是二分的结果
            c2 = m+n- c1;
            L1 = (c1 == 0)?INT_MIN:nums1[(c1-1)/2];   //map to original element
            R1 = (c1 == 2*n)?INT_MAX:nums1[c1/2];
            L2 = (c2 == 0)?INT_MIN:nums2[(c2-1)/2];
            R2 = (c2 == 2*m)?INT_MAX:nums2[c2/2];

            if(L1 > R2)
                hi = c1-1;
            else if(L2 > R1)
                lo = c1+1;
            else
                break;
        }
        return (max(L1,L2)+ min(R1,R2))/2.0;
    }
};

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值