算法导论9.3-6 k分位数 kth quantiles 介绍和实现

 

k分位数是大小为n的集合(比如数组)里面的k-1个数,它们把有序的集合分为k个分组,任何两个个分组之间的大小之差的绝对值不超过1(有点类似于平衡二叉树),比如集合{3, 5, 9, 4, 2, 1, 6, 8, 9, 10, 12, 7, 6},排序后为{1, 2, 3, 4, 5, 6, 6, 7, 8, 9, 9, 10, 12},它的4(k = 4)分位数为{4, 6, 9}, 分组后的子集合分别为{1, 2, 3, 4}, {5, 6, 6}, {7, 8, 9}, {9, 10, 12}。要求从集合中找出这k-1个数,并且时间复杂度为O(nlgk)。

在没有进行排序之前,通过简单的计算可以知道上述集合的k-1个数分别位于集合的第4位,第7位和第10位,如果对这k-1个数分别使用Order Statistics算法(算法导论第九章),比如,第一次找出第4小的数,第二次找出第7小的数,第三次找出第10小的数,虽然每次的时间复杂度为O(n),但k-1次则为O(nk),不是O(nlgk)。时间上,要想从k级别降到lgk级别,可以在Order Statistics的基础上使用分治(divide and conquer,算法导论第四章)的思想,每次递归调用(见代码)就把原来的集合规模减半,当小到一个分组的规模时就不再递归,代码及说明如下:

函数说明:partitionBilaterally被orderStatisticsIter调用,而后者又被kthQuantiles调用,所以前两个函数是辅助函数。partitionBilaterally是quick sort里面的分区思想,而orderStatistics则是在一个集合里面找第order(假设参数是order)小的数。

其它说明:代码用模板实现。三个函数里面都有参数stride,读者可以把它看作为1,这是我为了另一个程序重用代码而添加的,所以不必理会。orderStatisticsIter函数没有用递归,而是顺序实现。代码用英文注释,但不难看懂。

代码如下:

 1 template <typename T>
 2 int partitionBilaterally(T *a, int low, int high, int stride){
 3     int pivot = low;
 4     low += stride;
 5     T temp = a[pivot];
 6     while(low <= high){
 7         while(a[high] >= temp && low <= high)
 8             high -= stride;
 9         if(!(low > high)){
10             a[pivot] = a[high];
11             pivot = high;
12             high -= stride;
13         }
14         while(a[low] <= temp && low <= high)
15             low += stride;
16         if(!(low > high)){
17             a[pivot] = a[low];
18             pivot = low;
19             low += stride;
20         }
21     }
22     a[pivot] = temp;
23     return pivot;
24 }

 

 1 //-------------------------------------------------------------------------
 2 // Iterative version, don't forget to update low and 
 3 // high after comparing k with order
 4 //-------------------------------------------------------------------------
 5 template <typename T>
 6 int orderStatisticsItera(T *a, int low, int high, int order, int stride){
 7     int base = low;
 8     int p = partitionBilaterally(a, low, high, stride), k;
 9     while((k = (p-base)/stride+1) != order){
10         if(k < order)
11             low = p + stride;
12         else high = p - stride;
13         p = partitionBilaterally(a, low, high, stride);
14     }
15     return p;
16 }

 

 1 template <typename T>
 2 void kthQuantiles(T a[], int low, int high, int k){
 3     if(k == 1)
 4         return;
 5     int size = high-low+1;
 6     int split = k/2;
 7     // Parentheses outside the question mark statement must be added
 8     int lowerSize = (size/k)*split + (size%k<split ? size%k : split);
 9     orderStatisticsItera(a, low, high, lowerSize, 1);
10     kthQuantiles(a, low, low+lowerSize-1, split);
11     cout << a[low+lowerSize-1] << endl;
12     kthQuantiles(a, low+lowerSize, high, k-split);
13 }

 

测试函数:

1 void testKthQuantiles(){
2     int a[18] = {9, 5, 2, 4, 31, 16, 7, 4,
3         12, 8, 1, 6, 5, 3, 4, 7, 7, 4};
4     kthQuantiles(a, 0, 17, 4);
5 }

 

输出结果:

 

如有纰漏,敬请指正,如有更好的实现,欢迎交流~!

转载于:https://www.cnblogs.com/ccincd/p/3595461.html

BFPRT算法是一种解决Top-K问题的算法,其中K为要找的第K大的元素。该算法的时间复杂度为O(n)。 BFPRT算法的基本思想是通过划分算法来找到中位数,然后根据中位数将数组分成两部分,只需要在一部分中查找Top-K,另一部分不用查找。 以下是BFPRT算法的c语言实现: ```c #include <stdio.h> #include <stdlib.h> #define SWAP(a, b) {int temp = a; a = b; b = temp;} // 求中位数 int median(int arr[], int left, int right) { int center = (left + right) / 2; if (arr[left] > arr[center]) SWAP(arr[left], arr[center]) if (arr[left] > arr[right]) SWAP(arr[left], arr[right]) if (arr[center] > arr[right]) SWAP(arr[center], arr[right]) SWAP(arr[center], arr[right - 1]) return arr[right - 1]; } // 划分函数 int partition(int arr[], int left, int right, int pivot) { int i, j; for (i = left, j = right - 2;;) { while (arr[++i] < pivot); while (arr[--j] > pivot); if (i < j) SWAP(arr[i], arr[j]) else break; } SWAP(arr[i], arr[right - 1]) return i; } // BFPRT算法 int bfprt(int arr[], int left, int right, int k) { if (left + 1 == right) return arr[left]; int pivot = median(arr, left, right); int mid = partition(arr, left, right, pivot); int num = mid - left + 1; if (k == num) return arr[mid]; else if (k < num) return bfprt(arr, left, mid, k); else return bfprt(arr, mid + 1, right, k - num); } int main() { int arr[] = {3, 4, 2, 1, 5, 6, 8, 7, 9}; int len = sizeof(arr) / sizeof(int); int k = 5; int kth = bfprt(arr, 0, len, k); printf("The %dth number is: %d\n", k, kth); return 0; } ``` 该算法的核心是BFPRT划分算法,该算法是一个递归算法,每次递归的时间复杂度为O(n),因此总的时间复杂度为O(nlogn)。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值