求top N算法

在大数据场景下,求Top N问题有三种主要方法:排序、大小堆和BFPRT算法。BFPRT算法以O(n)的时间复杂度,通过寻找中位数并递归缩小搜索范围,实现高效求解,尤其适用于N较小的情况。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

求top N 在大数据中很常见,主要思路有三种:

       1. 先排序,在遍历出最大或最小的N个

       2. 通过大小堆,维持一个N个大小的堆,每次和堆顶元素比较,在堆化

       3. 中位数的中位数算法BFPRT,

 

第一种,先排序,排序算法有很多,冒泡排序,快速排序等。时间复杂度是 O(n*log n),这里不详讲。

第二种, 用大小堆,维持一个大小堆,元素个数是N个,遍历数据,和堆顶元素比较,在把堆,堆化,堆化的复杂度是log N,总的时间复杂度是n * log N , N 一般远远小于n,所以比第一种时间复杂度小,效率比第一个方法高。

第三种,中位数的中位数方法,为什么说是中位数的中位数算法BFPRT呢,听起来比较拗口。它的时间复杂度是O(n),  比用大小堆的时间复杂度小,如果N比较小,用推也是不错的选择,毕竟BFPRT的时间复杂度n的系数也不小。

 

下面主要介绍第三种方法:

    中位数的中位数算法BFPRT,思路是用先找到中位数,然后以这个基元找这个中位数的索引,这个索引是大于N还是小于N,舍弃另一部分再做递归。

     算法步骤:

             1.找到中位数

                  a. 通过把数据分为n/5份, 每分5个数,然后用插入排序(数据量很少,排序算法都差不多)这五个数得到中位数,得到n/5个中位数,在用相同的方法求这n/5个数中的中位数。

             2.求的中位数作为主元,得到中位数大小在数组中的位置

             3,比较N和中位数的位置大小,是否相等,大于或小于就把另一半递归

 

public static int BFPRT(int[] arr, int begin, int end, int i) {
		if (begin == end) {
			return arr[begin];
		}
		int pivot = medianOfMedians(arr, begin, end);
		int[] pivotRange = partition(arr, begin, end, pivot);
		if (i >= pivotRange[0] && i <= pivotRange[1]) {
			return arr[i];
		} else if (i < pivotRange[0]) {
			return BFPRT(arr, begin, pivotRange[0] - 1, i);  // 左边的部分
		} else {
			return BFPRT(arr, pivotRange[1] + 1, end, i); // 右边的部分
		}
	}

    //求中位数
	public static int medianOfMedians(int[] arr, int begin, int end) {
		int num = end - begin + 1;
		int offset = num % 5 == 0 ? 0 : 1;
		int[] mArr = new int[num / 5 + offset];
		for (int i = 0; i < mArr.length; i++) {
			int beginI = begin + i * 5;
			int endI = beginI + 4;
			mArr[i] = getMedian(arr, beginI, Math.min(end, endI));
		}
		return select(mArr, 0, mArr.length - 1, mArr.length / 2);
	}
    //得到中位数中的位置,
	public static int[] partition(int[] arr, int begin, int end, int pivotValue) {
		int small = begin - 1;
		int cur = begin;
		int big = end + 1;
		while (cur != big) {
			if (arr[cur] < pivotValue) {
				swap(arr, ++small, cur++);
			} else if (arr[cur] > pivotValue) {
				swap(arr, cur, --big);
			} else {
				cur++;
			}
		}
		int[] range = new int[2];
		range[0] = small + 1;
		range[1] = big - 1;
		return range;
	}
//得到中位数
public static int getMedian(int[] arr, int begin, int end) {
		insertionSort(arr, begin, end);
		int sum = end + begin;
		int mid = (sum / 2) + (sum % 2);
		return arr[mid];
	}

                 核心思想是,第一种方法排序是把所有的元素都排好序,很多没必要排序的也排序。BFPRT算法是只求中位数的有序位置通过partition 方法,然后和 N比较,缩小查找范围。最后得到第N大的数。

最后求TOP N

public static int[] getMinKNumsByBFPRT(int[] arr, int k) {
		if (k < 1 || k > arr.length) {
			return arr;
		}
		int minKth = BFPRT(arr, k);
		
		int[] res = new int[k];
		int index = 0;
		for (int i = 0; i != arr.length; i++) {
			if (arr[i] < minKth) {
				res[index++] = arr[i];
			}
		}
		for (; index != res.length; index++) {
			res[index] = minKth;
		}
		return res;
	}

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值