在N个数中查找第K大的数字（Top K问题）

最新推荐文章于 2023-02-15 00:33:17 发布

Carey_Lu

最新推荐文章于 2023-02-15 00:33:17 发布

阅读量1.8w

点赞数 18

分类专栏：面试总结文章标签： Top K

本文链接：https://blog.csdn.net/carey_lu/article/details/100609837

版权

面试总结专栏收录该内容

2 篇文章 2 订阅

订阅专栏

在N个乱序数字中查找第k大的数字，时间复杂度可以减小至

O(N*logN)
O(N)
O(1)
O(2)

答案：B

所谓“第（前）k大数问题”指的是在长度为n(n>=k)的乱序数组中S找出从大到小顺序的第（前）k个数的问题。

注意：题中只需得到最大的K个数，而不需要对后面N-K个数排序

可能存在的条件限制：

要求时间和空间消耗最小、海量数据、待排序的数据可能是浮点数等

方法一：对所有元素进行排序，之后取出前K个元素，不提倡使用

思路：使用最快排序算法，选择快排或堆排

时间复杂度：O(n*logn) + O(K) = O(n*logn)

特点：需要对全部元素进行排序，K = 1 时，时间复杂度也为O(n*logn)

方法二：只需要对前K个元素排序，不需要对N-K个元素进行排序，不提倡使用

思路：使用选择排序或起泡排序，进行K次选择，可得到第k大的数

时间复杂度：O(n*k)

方法三：不对前K个数进行排序 + 不对N-k个数排序，可以使用

思路：寻找第K个大元素。

具体方法：使用类似快速排序，执行一次快速排序后，每次只选择一部分继续执行快速排序，直到找到第K个大元素为止，此时这个元素在数组位置后面的元素即所求

时间复杂度：

若随机选取枢纽，线性期望时间O(N)

若选取数组的“中位数的中位数”作为枢纽，最坏情况下的时间复杂度O（N）

利用快速排序的思想，从数组S中随机找出一个元素X，把数组分为两部分Sa和Sb。Sa中的元素大于等于X，Sb中元素小于X。这时有两种情况：

1. Sa中元素的个数小于k，则Sb中的第k-|Sa|个元素即为第k大数；

2. Sa中元素的个数大于等于k，则返回Sa中的第k大数。

利用快排的partion思想 T(n) = 2T(n/2) + O(1) 时间复杂度为O(n)

该方法只有当我们可以修改输入的数组时可用，位于数组左边的k个数字就是最小的k个数字（但这k个数字不一定是排序的），位于第k个数右边的数字都比第k个数字大

//这里实现的是解法3
#include<iostream>
#include<stdio.h>
using namespace std;
 
int Partition (int *L, int low, int high)
{
	int temp = L[low];
	int pt   = L[low]; //哨兵
	while (low != high)
	{
		while (low < high && L[high] >= pt)
			high--;
		L[low] = L[high];		
		
		while (low < high && L[low] <= pt)
			low++;
		L[high] = L[low];
	}	
	L[low] = temp;
	return low;
}
 
void QSort (int *L, int low, int high)  //快速排序
{
	int pl;
	if (low < high)
	{
		pl = Partition (L,low,high);
		QSort (L, low,  pl-1);
		QSort (L, pl+1, high);
	}
}
 
void findk(int k,int *L,int low,int high)
{
	int temp;
	temp=Partition(L,low,high);
	if(temp==k-1)
	{
		cout<<"第"<<temp+1<<"大的数是:"<<L[temp]<<endl;
	}
	else if(temp>k-1)
		findk(k,L,low,temp-1);
	else
		findk(k,L,temp+1,high);
}
 
int main()
{
	int a[10]={15,25,9,48,36,100,58,99,126,5},i,j,k;
	cout<<"排序前："<<endl;
	for(i=0;i<10;i++){
		cout<<a[i]<<" ";
	}
	cout<<endl;
	cout<<"请输入你要查找第k大的数："<<endl;
	cin>>k;
	findk(k,a,0,9); //查找第k大的数不需要全部排序
 
	QSort(a,0,9);	
	cout<<"排序后："<<endl;
	for(i=0;i<10;i++){
		cout<<a[i]<<" ";
	}
	cout<<endl;
	system("Pause");
	return 0;
}

方法四、我们寻找线性查找的算法，适合数据量小的数据

思路1：寻找第K个大的元素 + 计数排序 + 数组实现

具体方法：使用计数排序，另开辟一个数组，记录每个整数出现的次数，然后再从大到小取最大的 K 个。

缺点：

1、有些数没有出现过，仍要为其保留一个空间，空间浪费比较严重

2、不能处理浮点数

思路2：寻找第K个大的元素 + 计数排序 + map实现

具体方法：利用STL最后的map保存每一个元素Si出现的次数，之后从大到小扫描找到K个数

时间复杂度O(n*logn) 空间复杂度O(n)

注意：

1、可以处理浮点数

2、不能使用CMap实现，因为Cmap不能根据key自动为其排序

3、map内部是由红黑树实现的，每次插入都是logn，总的复杂度为n*logn。

这里给出两个另外的思路，他们没有计数排序和类快速排序好，这里仅仅为了打开思路

方法五、基数排序，不提倡使用

思路：寻找第K个大的元素 + 基数排序

一次遍历，找到最大的数为Vmax;，最小的数为Vmin
对区间[Vmin,Vmax]分成M块
每个小区间的跨度为d=（Vmax–Vmin）/M
即 [Vmin,Vmin+d], [Vmin+d,Vmin+ 2d],……
扫描一遍所有元素，统计各个小区间中的元素个数,我们可以知道第K大的元素在哪一个小区间。
然后，再对那个小区间，继续进行分块处理。
。。。。递归下去，一直找到一个区间只含第K个数为止

时间复杂度：O ( (N +M )* log2 M (|V max - V min |/delta) )

方法六、类二分查找，不提倡使用

思路：寻找第K个大的元素 + 类二分查找

二分[Smin,Smax]查找结果X，统计X在数组中出现，且整个数组中比X大的数目为k-1的数即为第k大数。时间复杂度平均情况为O(n*logn)

while(Vmax – Vmin > delta)
{
	Vmid = Vmin + (Vmax - Vmin) * 0.5;
	if(f(arr,N,Vmid) >= K)
		Vmin = Vmid;
	else
		Vmax = Vmid;
}
伪码中f（arr ,N,Vmid）返回数组arr [0, …, N-1]中大于等于Vmid的数的个数。

举例

结果分析：程序运行的结果，得到一个区间（Vmin, Vmax），这个区间仅包含一个元素（或者多个相等的元素）这个元素就是第K大的元素。