There are two sorted arrays A and B of size m and n respectively. Find the median of the two sorted arrays. The overall run time complexity should be O(log (m+n)).
题解:
首先我们先明确什么是median,即中位数。
引用Wikipedia对中位数的定义:
计算有限个数的数据的中位数的方法是:把所有的同类数据按照大小的顺序排列。如果数据的个数是奇数,则中间那个数据就是这群数据的中位数;如果数据的个数是偶数,则中间那2个数据的算术平均值就是这群数据的中位数。
因此,在计算中位数Median时候,需要根据奇偶分类讨论。
解决此题的方法可以依照:寻找一个unioned sorted array中的第k大(从1开始数)的数。因而等价于寻找并判断两个sorted array中第k/2(从1开始数)大的数。
特殊化到求median,那么对于奇数来说,就是求第(m+n)/2+1(从1开始数)大的数。
而对于偶数来说,就是求第(m+n)/2大(从1开始数)和第(m+n)/2+1大(从1开始数)的数的算术平均值。
那么如何判断两个有序数组A,B中第k大的数呢?
我们需要判断A[k/2-1]和B[k/2-1]的大小。
如果A[k/2-1]==B[k/2-1],那么这个数就是两个数组中第k大的数。
如果A[k/2-1]<B[k/2-1], 那么说明A[0]到A[k/2-1]都不可能是第k大的数,所以需要舍弃这一半,继续从A[k/2]到A[A.length-1]继续找。当然,因为这里舍弃了A[0]到A[k/2-1]这k/2个数,那么第k大也就变成了,第k-k/2个大的数了。
如果 A[k/2-1]>B[k/2-1],就做之前对称的操作就好。
这样整个问题就迎刃而解了。
当然,边界条件页不能少,需要判断是否有一个数组长度为0,以及k==1时候的情况。
因为除法是向下取整,并且页为了方便起见,对每个数组的分半操作采取:
int partA = Math.min(k/2,m);
int partB = k - partA;
为了能保证上面的分半操作正确,需要保证A数组的长度小于B数组的长度。
同时,在返回结果时候,注意精度问题,返回double型的就好。
代码如下:
2 int m = A.length;
3 int n = B.length;
4 int total = m+n;
5 if (total%2 != 0)
6 return ( double) findKth(A, 0, m-1, B, 0, n-1, total/2+1);//k传得是第k个,index实则k-1
7 else {
8 double x = findKth(A, 0, m-1, B, 0, n-1, total/2);//k传得是第k个,index实则k-1
9 double y = findKth(A, 0, m-1, B, 0, n-1, total/2+1);//k传得是第k个,index实则k-1
10 return ( double)(x+y)/2;
11 }
12 }
13
14 public static int findKth( int[] A, int astart, int aend, int[] B, int bstart, int bend, int k) {
15 int m = aend - astart + 1;
16 int n = bend - bstart + 1;
17
18 if(m>n)
19 return findKth(B,bstart,bend,A,astart,aend,k);
20 if(m==0)
21 return B[k-1];
22 if(k==1)
23 return Math.min(A[astart],B[bstart]);
24
25 int partA = Math.min(k/2,m);
26 int partB = k - partA;
27 if(A[astart+partA-1] < B[bstart+partB-1])
28 return findKth(A,astart+partA,aend,B,bstart,bend,k-partA);
29 else if(A[astart+partA-1] > B[bstart+partB-1])
30 return findKth(A,astart,aend,B,bstart+partB,bend,k-partB);
31 else
32 return A[astart+partA-1];
33 }
接下来我们考虑有没有优化的算法。优化的思想来源于order statistics,在算法导论10.3节中提到。问题等价于求两个array的第k=(m+n)/2(假设m和n分别是两个数组的元素个数)大的数是多少。基本思路是每次通过查看两个数组的第k/2大的数(假设是A[k/2],B[k/2]),如果两个A[k/2]=B[k/2],说明当前这个数即为两个数组剩余元素的第k大的数,如果A[k/2]>B[k/2], 那么说明B的前k/2个元素都不是我们要的第k大的数,反之则排除A的前k/2个,如此每次可以排除k/2个元素,最终k=1时即为结果。总的时间复杂度为O(logk),空间复杂度也是O(logk),即为递归栈大小。在这个题目中因为k=(m+n)/2,所以复杂度是O(log(m+n))。比起第一种解法有明显的提高,代码如下:
实现中还是有些细节要注意的,比如有时候剩下的数不足k/2个,那么就得剩下的,而另一个数组则需要多取一些数。但是由于这种情况发生的时候,不是把一个数组全部读完,就是可以切除k/2个数,所以不会影响算法的复杂度。
这道题的优化算法主要是由order statistics派生而来,原型应该是求topK的算法,这个问题是非常经典的问题,一般有两种解法,一种是用quick select(快速排序的subroutine),另一种是用heap。 复杂度是差不多的,有兴趣可以搜一下,网上资料很多,topK问题在海量数据处理中也是一个非常经典的问题,所以还是要重视。
归并计数法 Merge and Count
复杂度
时间O(n) 空间O(1)
思路
如果对时间复杂度没有要求,这个方法是实现起来最简单的,我们只需要从下往上依次数(n+m)/2个元素即可。由于两个数组都已经排序,我们可以使用两个指针指向数组“底部”,通过比较两个数组“底部”的元素大小来决定计哪一个元素,同时将其所在数组的指针“向上”移一位。为了方便处理总元素为偶数的情况,这里将找中位数变成找第k小的元素。
注意
- 计数的循环是用来找到第k-1个元素的,最后return的时候再判断第k个元素是哪一个
- 在每次计数的循环中要先判断两个数组指针是否超界,在最后return之前也要判断一次
代码
Java
public class Solution { public double findMedianSortedArrays(int[] nums1, int[] nums2) { int len1 = nums1.length; int len2 = nums2.length; int total = len1 + len2; if(total % 2==0){ return (findKth(nums1,nums2,total/2)+findKth(nums1,nums2,total/2+1))/2.0; } else { return findKth(nums1,nums2,total/2+1); } } private int findKth(int[] nums1, int[] nums2, int k){ int p = 0, q = 0; for(int i = 0; i < k - 1; i++){ if(p>=nums1.length && q<nums2.length){ q++; } else if(q>=nums2.length && p<nums1.length){ p++; } else if(nums1[p]>nums2[q]){ q++; } else { p++; } } if(p>=nums1.length) { return nums2[q]; } else if(q>=nums2.length) { return nums1[p]; } else { return Math.min(nums1[p],nums2[q]); } } }
分治法 Divide and Conquer
复杂度
时间O(log(m+n)) 空间O(1)
思路
题目要求O(log(m+n))的时间复杂度,一般来说都是分治法或者二分搜索。首先我们先分析下题目,假设两个有序序列共有n个元素(根据中位数的定义我们要分两种情况考虑),当n为奇数时,搜寻第(n/2+1)个元素,当n为偶数时,搜寻第(n/2+1)和第(n/2)个元素,然后取他们的均值。进一步的,我们可以把这题抽象为“搜索两个有序序列的第k个元素”。如果我们解决了这个k元素问题,那中位数不过是k的取值不同罢了。
那如何搜索两个有序序列中第k个元素呢,这里又有个技巧。假设序列都是从小到大排列,对于第一个序列中前p个元素和第二个序列中前q个元素,我们想要的最终结果是:p+q等于k-1,且一序列第p个元素和二序列第q个元素都小于总序列第k个元素。因为总序列中,必然有k-1个元素小于等于第k个元素。这样第p+1个元素或者第q+1个元素就是我们要找的第k个元素。
所以,我们可以通过二分法将问题规模缩小,假设p=k/2-1,则q=k-p-1,且p+q=k-1。如果第一个序列第p个元素小于第二个序列第q个元素,我们不确定二序列第q个元素是大了还是小了,但一序列的前p个元素肯定都小于目标,所以我们将第一个序列前p个元素全部抛弃,形成一个较短的新序列。然后,用新序列替代原先的第一个序列,再找其中的第k-p个元素(因为我们已经排除了p个元素,k需要更新为k-p),依次递归。同理,如果第一个序列第p个元素大于第二个序列第q个元素,我们则抛弃第二个序列的前q个元素。递归的终止条件有如下几种:
- 较短序列所有元素都被抛弃,则返回较长序列的第k个元素(在数组中下标是k-1)
- 一序列第p个元素等于二序列第q个元素,此时总序列第p+q=k-1个元素的后一个元素,也就是总序列的第k个元素
注意
- 每次递归不仅要更新数组起始位置(起始位置之前的元素被抛弃),也要更新k的大小(扣除被抛弃的元素)
代码
java
public class Solution { public double findMedianSortedArrays(int[] nums1, int[] nums2) { int m = nums1.length, n = nums2.length; int k = (m + n) / 2; if((m+n)%2==0){ return (findKth(nums1,nums2,0,0,m,n,k)+findKth(nums1,nums2,0,0,m,n,k+1))/2; } else { return findKth(nums1,nums2,0,0,m,n,k+1); } } private double findKth(int[] arr1, int[] arr2, int start1, int start2, int len1, int len2, int k){ if(len1>len2){ return findKth(arr2,arr1,start2,start1,len2,len1,k); } if(len1==0){ return arr2[start2 + k - 1]; } if(k==1){ return Math.min(arr1[start1],arr2[start2]); } int p1 = Math.min(k/2,len1) ; int p2 = k - p1; if(arr1[start1 + p1-1]<arr2[start2 + p2-1]){ return findKth(arr1,arr2,start1 + p1,start2,len1-p1,len2,k-p1); } else if(arr1[start1 + p1-1]>arr2[start2 + p2-1]){ return findKth(arr1,arr2,start1,start2 + p2,len1,len2-p2,k-p2); } else { return arr1[start1 + p1-1]; } } }