前言
字节跳动二面面试题,开始想到维护小顶堆,面试官提示优化到O(n),于是考虑计数排序,但计数排序需要大量空间,本题最优解法为《算法导论》上的快速选择算法,记录一下。
topK算法常见于排行榜等场景,常规的解法有:
- 排序 O(nlogn)
对整个数组进行了排序,显然我们只需要前K个,后面的N-K是无意义的排序,有优化空间。 - 堆 O(nlogk)
建小顶堆,并保持堆中元素个数为k个,遍历一次数组,每个数组中元素与堆顶元素比较,如果大于堆顶元素,则将堆顶元素移除,加入新元素。 - 计数排序
要求数组的数字有一定区间性,否则会消耗大量空间
快速选择算法
思想
简化版的快速排序,通过一趟快排过后,序列将被分为比key小的数,key,比key大的数三部分,假设key的下标为i,如果k < i,则第K大的数必然在快排左边的区域;如果k = i,则key就是第k大的数;如果k > i,则k必然在快排的右边的区域。接下来递归即可得到第k大的数。
平均复杂度为O(N),最坏复杂度为O(N^2)。其中最坏情况对应数组有序,线性扫描,没能有效将数组进行划分的情况。
Java实现
注意:经过topK后,数组前K个元素即为topK。