0x01 问题介绍
给定线性序集中 n 个元素和一个整数 k , 1 < k ≤ n 1<k≤n 1<k≤n ,要求找出这 n 个元素中第 k 大或者 k 小的元素,简称 TOP-K 问题。
0x02 常规思路
可以分为两步:
- 进行快速排序,得到有序序列
- 从有序序列中选取第 k 个
缺点:此种方法使用了快速排序,所以快速排序的缺点也都拥有,如最坏情况的发生(排序的序列为有序序列),且本身也只是求第 k 的数,目的不是排序。
0x03 BFPRT 算法
对于上述缺点,只要能保证每次选取的基准为中位数即可。于是出现了 BFPRT 算法,中位数的中位数算法,该算法由 Blum、Floyd. Pratt、Rivest、Tarjan 提出,最坏时间复杂度为O(n)。
利用 BFPRT 算法解决 Top-k 问题,其主要思路:在快速排序的基础上,对基准的选取做文章。
基准的选取:
- 将求取 Top-k 的数组分为 [n / 5 ] 组,每个组都求出中位数
- 将这些中位数组合一个新数组,进行排序,取数组中位数为基准
**优点:**可以保证即使实在最坏情况下,时间复杂度也为 O(n)。