TopK问题的常见两种解法
1 什么是TopK
面试中经常会被面试官这样问到:假设一个数组中有上万个数字,我们要找到第K小(大)或者前K小(大)个数字,这时候应该用什么方法去找?
当然不能傻傻的回答用快速排序然后去找,那么只能收到一封感谢信。
2 常见思路
这种场景下常用的思路有两种:
-
基于大顶堆实现时间复杂度O(nlogK)的算法
假设我们要找前k小的所有元素,首先将数组中前K个元素加入大顶堆中,然后从第k+1个元素开始将当前元素和堆顶元素比较,把较小者加入堆中(Java中用优先队列实现,如果不需要自己手动写堆的话)
-
基于快排思想的partition实现时间复杂度O(n)的算法
定义一个partition(arr, start, end, k)表示划分数组arr的[start,end]部分,使前k个小的数在数组的左侧,假设划分返回的下标为pos,即pivot是数组中第 pos-l+1小的数,那么会有三种情况: * 如果pos-l+1==k,表示pivot就是第k小的数,直接返回即可。 * 若果pos-l+1<k,表示第k小的数在pivot的右侧,因此递归调用partition(arr, pos + 1, end, k-(pos - l + 1)) * 如果post-l+1>k,表示第k小的数在pivot的左侧,递归调用partition(arr, start, pos - 1, k)。 递归入口:partition(arr, 0, arr.length - 1 ,k) > 注意:pivot的选择常见的有三种1. 选择l作为基准;2. 选择r作为基准;3. 选择一个随机索引与l或者r交换,将l或者r作为基准。
3 比较
基于Partition的解法 | 基于堆的解法 | |
---|---|---|
时间复杂度 | O(n) | O(nlogk) |
是否需要修改数组 | 是 | 否 |
是否适用于海量数据 | 否 | 是 |