算法_中位数与顺序统计量_中位数统计量-CSDN博客

本文链接：https://blog.csdn.net/w15835rk/article/details/83028464

中位数与顺序统计量

目标：寻找中位数

可以在 $O (n l g n)$ 复杂度内完成（堆排序或快排），所以希望找到线性时间的选择方案

最大值和最小值

寻找最大值或最小值需要 $n - 1$ 次比较
同时寻找最大值或最小值，直观的想法是 $2 (n - 1)$ 次比较。但事实上只需要 $3\lfloor n/2 \rfloor$ 次比较
- 对奇数 $n$ ，令最大值和最小值的初值都为第一个元素，然后成对比较之后的 $\frac{n-1}{2}$ 个元素
- 对偶数 $n$ ，令最大值和最小值为第一对元素的较大值和较小值，然后成对比较之后的 $\frac{n-2}{2}$ 个元素

选择顺序统计量$X_i$——随机算法

RANDOMIZED_SELECT(A, p, r, i)
    //在A[p...r]中寻找第i个顺序统计量
    if p == r               //递归终点
        return A[p]             
    q = RANDOMIZED_PARTITION(A,p,r)
    //将数组A[p...r]随机分成两块，A[q]为主元，并属于低区
    k = q - p + 1   //计算低区的长度
    if i == k       //A[q]是第i个顺序统计量
        return A[q]
    else if i < k     //第i个顺序统计量在低区
        return RANDOMIZED_SELECT(A,p,q-1,i)
    else return RANDOMIZED_SELECT(A,q+1,r,i-k)

RANDOMIZED-SELECT的最坏运行时间 $\Theta(n^2)$ 。但不存在特定的最坏的输入序列

以最小元素为例，每次都只排除一个最大的
期望运行时间

假设 $X_k=I\{子数组A[p...q]正好包含k个元素\}$ 且元素互异，得到递归式：

$T(n)\leq \sum_{k=1}^n X_k \cdot (T(max(k-1,n-k)) + O(n))$

随机变量的任何一个样本 ${x_k\}n$ ， $\sum_{k=1}^n x_k = 1$ ，所以

$T(n)\leq (\sum_{k=1}^n X_k \cdot (T(max(k-1,n-k))) + O(n)$

取期望

$\begin{aligned} E[T(n)] & \leq E[(\sum_{k=1}^n X_k \cdot (T(\max{(k-1,n-k)})) + O(n)] \\ & = \sum_{k=1}^n E[X_k\cdot T(\max{(k-1,n-k)})] + O(n)\\ & = \sum_{k=1}^n E[X_k]\cdot E[T(\max{(k-1,n-k)})] + O(n)\\ & (虽然并不知道为什么独立)\\ & = \sum_{k=1}^n \frac{1}{n} E[T(\max{(k-1,n-k)})] + O(n) \end{aligned}$

考虑 $max{(k-1,n-k)}$ ，对偶数， $n / 2$ … $n - 1$ 都恰好出现两侧，对奇数，则 $\lfloor n/2 \rfloor$ 出现一次，大于这个值的都出现两侧，所以

$\leq \frac{2}{n}\sum_{k=\lfloor n/2 \rfloor} ^{n-1} E[T(k)] + O(n)$

下面用代入法证明，假设 $\leq cn$

$\begin{aligned} E[T(n)] & \leq \frac{2}{n}\sum_{k=\lfloor n/2 \rfloor} ^{n-1} ck + an\\ & = \frac{2c}{n}(\sum_{k=1} ^{n-1} k - \sum_{k=1} ^{\lfloor n/2 \rfloor}k) + an \\ & \leq \frac{2c}{n}(\frac{(n-1)n}{2} - \frac{(n/2-2)(n/2-1)}{2})\\ & = \frac{c}{n}(\frac{3n}{4} + \frac{1}{2} - 2) + an \\ &\leq \frac{3cn}{4} + \frac{c}{2} + an\\ & = cn-(\frac{cn}{4}-\frac{c}{2}-an) \end{aligned}$

问题转化为寻找满足 $\frac{cn}{4}-\frac{c}{2}-an\geq 0$ 的 $n$ 的下界，得到 $n\geq \frac{2c}{c-4a}$ 。对于比这个值（设为 $N_0$ ）小的，有
$E[T(n)]\leq \frac{3c}{4}N_0 + \frac{c}{2} + aN_0=O(1)$