第K顺序统计量的求解

一个n个元素组成的集合中,第K个顺序统计量(Order Statistic)指的是该集合中第K小的元素,我们要讨论的是如何在线性时间(linear time)里找出一个数组的第K个顺序统计量。

一、问题描述

问题:给定一个含有n个元素的无序数组,找出第k小的元素。

  • k = 1 :最小值
  • k = n :最大值
  • k = ⌊(n+1)/2⌋ or ⌈(n+1)/2⌉ :中位数

找最大值或最小值很简单,只需要遍历一次数组并记录下最大值或最小值就可以了。我们在这里要解决的问题是一般性的选择问题。

一种原始的解决方案是,用堆排序或归并排序将输入数据进行排序,然后返回第k个元素。这样在Θ(nlgn)时间内一定可以解决。但是我们希望有更好的方案,最好是线性时间。

二、期望线性时间的解决方案

为了在线性时间内解决这个选择问题,我们使用一个随机的分治算法,即RANDOMIZED-SELECT算法。此算法是使用随机化的快速排序中的随机划分子程序,对输入数组进行随机划分操作,然后判断第k小元素在划分后的哪个区域,对所在区域进行递归划分,最后找到第k小元素。

伪代码

RANDOMIZED-SELECT(A,p,q,i)  // i-th smallest in A[p..q]
	if p = q
		then return A[p]
	r = RANDOMIZED-PARTITION(A, p, q)
	k = r-p+1   // A[r] is k-th smallest
	if i=k
		then return A[r]
	if i<k
		then return RANDOMIZED-SELECT(A, p, r-1, i)
	else
		then return RANDOMIZED-SELECT(A, r+1, q, i-k)
这里的RANDOMIZED-PARTITION()是随机版的划分操作( 快速排序的分析与优化),可见本算法是一个随机算法,它的 期望时间是Θ(n)(假设元素的值是不同的)。

1、Lucky-Case:最好的情况是在正中划分,划分的右边和右边的元素数量相等,但是1/10和9/10的划分也几乎一样好。可以这么说,任何常数比例的划分都和1/2:1/2的划分一样好。这里以1/10和9/10的划分为例,算法运行时间递归式为T(n) <= T(9n/10) + Θ(n),根据主定理得到T(n) <= Θ(n)

2、Unlucky-Case:虽然主元的选取是随机的,但是如果你运气足够差,每次都得到0:n-1的划分,这就是最坏的情况。此时递归式为T(n) = T(n-1) + Θ(n),则时间复杂度为T(n) = Θ(n^2)

3、Expected-Time:期望运行时间为Θ(n),即线性时间。这里就不证明了,证明需要用到指示器随机变量。

C++代码

/*************************************************************************
    > File Name: RandomizedSelect.cpp
    > Author: SongLee
    > E-mail: lisong.shine@qq.com
    > Created Time: 2014年06月22日 星期日 20时20分08秒
    > Personal Blog: http://songlee24.github.com
 ************************************************************************/
#include<iostream>
#include<cstdlib>  // srand rand
using namespace std;

void swap(int &a, int &b)
{
	int tmp = a;
	a = b;
	b = tmp;
}

int Partition(int A[], int low, int high)
{
	int pivot = A[low];
	int i = low;
	for(int j=low+1; j<=high; ++j)
	{
		if(A[j] <= pivot)
		{
			++i;
			swap(A[i], A[j]);
		}
	}
	swap(A[i], A[low]);
	return i;
}

int Randomized_Partition(int A[], int low, int high)
{
	srand(time(NULL));
	int i = rand() % (high+1);
	swap(A[low], A[i]);
	return Partition(A, low, high);
}

int Randomized_Select(int A[], int p, int q, int i)
{
	if(p == q)
		return A[p];
	int r = Randomized_Partition(A, p, q);
	int k = r-p+1;
	if(i == k)
		return A[r];
	if(i < k)
		return Randomized_Select(A, p, r-1, i);
	else
		return Randomized_Select(A, r+1, q, i-k);
}

/* 测试 */
int main()
{
	int A[] = {6,10,13,5,8,3,2,11};
	int i = 7;
	int result = Randomized_Select(A, 0, 7, i);
	cout << "The " << i << "th smallest element is " << result << endl;
	return 0;
}

三、最坏情况线性时间的解决方案

虽然最坏情况Θ(n2)出现的概率非常非常小,但是不代表它不会出现。这里就介绍一个非同一般的算法,以保证在最坏情况下也能达到线性时间。

这个SELECT算法的基本思想就是要保证对数组的划分是一个好的划分,它通过自己的方法选取主元(pivot),然后将pivot作为参数传递给快速排序的确定性划分操作PARTITION。

基本步骤:

  1. 将输入数组的n个元素划分为n/5(上取整)组,每组5个元素,且至多只有一个组有剩下的n%5个元素组成。

  2. 寻找每个组织中中位数。首先对每组中的元素(至多为5个)进行插入排序,然后从排序后的序列中选择出中位数。

  3. 对第2步中找出的n/5(上取整)个中位数,递归调用SELECT以找出其中位数x。(如果是偶数取下中位数)

  4. 调用PARTITION过程,按照中位数x对输入数组进行划分。确定中位数x的位置k。

  5. 如果i=k,则返回x。否则,如果i < k,则在地区间递归调用SELECT以找出第i小的元素,若干i > k,则在高区找第(i-k)个最小元素。

                            

总结:RANDOMIZED-SELECT和SELECT算法是基于比较的。我们知道,在比较模型中,排序时间不会优于Ω(nlgn)。之所以这里的选择算法达到了线性时间,是因为它们没有使用排序就解决了选择问题。另外,我们没有使用线性时间排序算法(计数排序/桶排序/基数排序),是因为它们要达到线性时间对输入有很高的要求,而这里不需要关于输入的任何假设。



  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 利用gap统计可以帮助我们选择最优的k值。具体步骤如下: 1. 首先,我们需要使用不同的k值训练多个KNN模型。 2. 然后,对于每个k值,我们需要在测试集上计算模型的准确率。 3. 接下来,我们需要计算相邻k值对应的准确率差值(gap统计),即$gap(k) = acc(k) - acc(k+1)$。 4. 最后,我们选择gap值最大的k值作为最优的k值。 例如,假设我们使用k=1,3,5,7,9训练了5个KNN模型,对应的准确率分别为0.85, 0.87, 0.88, 0.86, 0.84。则我们可以计算出gap值为-0.02, -0.01, 0.02, 0.02。因此,最优的k值为5。 注意,这种方法并不是绝对可靠的,而是一种较为简单的经验法则。在实际应用中,我们可能需要使用交叉验证等更为严格的方法来选择最优的k值。 ### 回答2: 利用Gap统计可以帮助我们筛选最合适的k值。Gap统计是一种用于聚类分析中的评估指标,它可以帮助我们确定聚类中心数k的最佳取值。 首先,我们需要确定一系列待选的k值。然后,对于每个k值,我们通过执行聚类算法(如K-means)对数据进行聚类,并计算出对应的Gap统计值。 Gap统计是通过比较聚类结果与随机分布数据相比的得分来计算的。具体而言,我们在计算Gap统计时会考虑到聚类结果的紧凑性以及数据集的内在结构。对于每个k值,我们会计算出相应的Gap统计值,并与随机分布数据的Gap统计值进行比较。 一般而言,当k值较小时,Gap统计值会较小,说明聚类结果过于分散;当k值较大时,Gap统计值会较大,说明聚类结果过于紧凑。而当k值为最佳k值时,Gap统计值会取得一个峰值。 因此,我们可以通过找到Gap统计值峰值所对应的k值,来选择最合适的聚类中心数。这个峰值所对应的k值就是我们要筛选的合适k值。 总结起来,利用Gap统计筛选k值的过程可以通过计算聚类结果与随机分布数据相比的Gap统计值,并找到Gap统计值峰值所对应的k值。这个过程可以帮助我们确定最合适的聚类中心数,从而对数据进行更精确的聚类分析。 ### 回答3: Gap统计是一种常用的统计,可以用来确定合适的聚类数k。它是通过比较真实数据与随机生成数据的结果来评估聚类效果的好坏。 利用Gap统计筛选k值的方法如下:首先,我们根据数据集,假设一个k的最大值。然后,进行k个不同的聚类,得到每个聚类结果的误差平方和(Wk)。 接下来,我们需要随机生成若干组服从同一分布的数据集,并分别做k个不同的聚类,同样得到每组数据聚类结果的误差平方和(Wkb)。需要注意的是,生成的数据集的样本数要与真实数据集数相同。 接着,计算出聚类结果的误差平方和与随机生成数据的误差平方和的均值gap(k) = E(log(Wkb)) - log(Wk)。这个gap(k)表示了真实数据的聚类效果相对于随机生成数据的平均效果。 最后,通过计算gap(k)与gap(k+1)的差值gap(k) - gap(k+1)与误差标准差的乘积std(k+1)来筛选k值。如果gap(k) - gap(k+1)小于std(k+1),则认为找到了合适的k值。 通过以上步骤,我们可以利用Gap统计来筛选出最合适的聚类数k,以提高聚类的效果。需要注意的是,选择不同的最大k值可能会得到不同的最合适k值,因此在应用时需要进行适当的试验和比较。同时,Gap统计也有一些局限性,无法对特定数据类型或问题适用,因此需要根据具体情况选择合适的聚类方法和评估指标。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值