选择算法时间复杂度分析

最新推荐文章于 2024-02-01 15:10:18 发布

Dear_Atri

最新推荐文章于 2024-02-01 15:10:18 发布

阅读量289

点赞数

文章标签：算法

本文链接：https://blog.csdn.net/Dear_Atri/article/details/132568463

版权

选择算法

算法导论选择算法

期望时间为线性时间的选择算法

算法思想：设数组长度为n，要求数组中第i大的数字，在待选择的数组中选择一个数x，使用Partition函数（快排中的）进行划分，假设划分为两部分：
$\left\{ {A[1], A[2],...,A[k-1]} \right\}, \left\{ {A[k+1], A[k+2],...,A[n]} \right\}$
现在，A[1 ~ (k-1)]都是小于A[k]的数字，A[(k+1) ~ n]都是大于A[k]的数字。对比 k 和 i 的大小，分为三种情况：

k = i: A[k]即是要找的数字，返回A[k]。
k < i: 要找的数字在高区，在高区递归调用Select。
k > i: 要找的数字在低区，在低区递归调用Select。

代码：

#include <bits/stdc++.h>

using namespace std;

int Partition(vector<int>& A, int q, int r) {
    int& x = A[q], i = q + 1;
    for (int j = q + 1; j <= r; j++) {
        if (A[j] < x) {
            swap(A[i], A[j]);
            i++;
        }
    }
    swap(A[i-1], x);
    return i-1;
}

int Select(vector<int>& A, int q, int r, int target) {
    if (q < 0 || r >= A.size()) return -1;
    int i = Partition(A, q, r);
    if (i == target) return A[i];
    else if (i > target) return Select (A, q, i-1, target);
    else return Select(A, i+1, r, target);
}

int main() {
    vector<int> A = {5,1,2,10,7,9};
    cout << Select(A, 0, A.size()-1, 5) << endl;
}

复杂度分析：

最好情况下，第一次划分即得到目标值，此时的复杂度是 $T(n)=\Theta(n)$ 。
最好情况下，每一次划分都将数组划分为两部分：0个元素和n-1个元素，而目标值存在n-1个元素的部分里。递归式为 $\Theta(n)$ ，现在证明 $\Theta(n^2)$ ：
$\begin{aligned} T(n) &= T(n-1) + \Theta(n) \\ &= c(n-1)^2 + \Theta(n) \\ &= cn^2 - 2cn + c + \Theta(n) \\ &= cn^2 - [c(2n-1) - \Theta(n)] \\ & \le cn^2 \end{aligned}$
时间复杂度的期望值：

设指示器随机变量(indicator)：
$x_k = \begin{cases} 1, & \text{if k : n-k-1 split}, \\ 0, & \text{otherwise} \end{cases}$
由于每次的k是独立的，因此 $E(x_k) = \frac{1}{n}$
将划分的所有情况的时间复杂度公式写出，则是：
$\begin{aligned} T(n) &\le \begin{cases} T(max\left\{0, n-2\right\}) + \Theta(n), &\text{if 0, n-1 split}\\ T(max\left\{1, n-2\right\}) + \Theta(n), &\text{if 1, n-2 split}\\ ... \\ T(max\left\{k, n-k-1\right\}) + \Theta(n), &\text{if k, n-k-1 split}\\ ... \\ T(max\left\{n-1, 0\right\}) + \Theta(n), &\text{if n-1, 0 split} \\ \end{cases} \\ &= \sum_{k=0}^{n-1}x_k(T(max\left\{k, n-k-1\right\}) + \Theta(n)) \end{aligned}$
故有:
$E(\sum_{k=0}^{n-1}x_k(T(max\left\{k, n-k-1\right\}) + \Theta(n)))$
由期望的线性性质可得：
$\begin{aligned} E(T(n)) &= E(\sum_{k=0}^{n-1}x_k(T(max\left\{k, n-k-1\right\}) + \Theta(n))) \\ &= E(x_k) * E(\sum_{k=0}^{n-1}(T(max\left\{k, n-k-1\right\}))) + E(\sum_{k=0}^{n-1}\Theta(n)) \\ &= \frac{1}{n}E(\sum_{k=0}^{n-1}(T(max\left\{k, n-k-1\right\}))) + \Theta(n) \end{aligned}$
由于 $k$ 与 $n - k - 1$ 相加固定为 $n - 1$ ，因此
$\sum_{k=0}^{n-1}T(max\left\{k, n-k-1\right\})) \le 2 * \sum_{k=\lfloor{\frac{n}{2}}\rfloor}^{n-1}T(k)$
当n为偶数时为等号。
故上式化简为：
$\begin{aligned} E(T(n)) &= \frac{1}{n}E(\sum_{k=0}^{n-1}T(max\left\{k, n-k-1\right\})) + \Theta(n) \\ &\le \frac{2}{n}E(\sum_{k=\lfloor{\frac{n}{2}}\rfloor}^{n-1}T(k)) + \Theta(n) \\ &= \frac{2}{n}\sum_{k=\lfloor{\frac{n}{2}}\rfloor}^{n-1}E(T(k)) + \Theta(n) \end{aligned}$
现在假设其上界为线性，即 $\le cn$ ，通过代入法进行推导：
$\begin{aligned} E(T(n)) &\le \frac{2}{n}\sum_{k=\lfloor{\frac{n}{2}}\rfloor}^{n-1}E(T(k)) + \Theta(n) \\ & \le \frac{2}{n}\sum_{k=\lfloor{\frac{n}{2}}\rfloor}^{n-1}ck + \Theta(n) \\ & \le \frac{2}{n} * \frac{3}{8}cn^2 + \Theta(n) \\ & = cn - (\frac{1}{4}cn - \Theta(n)) \\ & \le cn \end{aligned}$
因为 $\Theta(n)$ 在特定规模下是确定的，因此对于每种规模都能取到 $c$ 值使得上式成立。故该选择算法的期望时间复杂度为 $\Theta(n)$ 。