大数据算法课程笔记1：寻找中值算法之随机选取，中值的中值，One Pass算法

最新推荐文章于 2021-06-14 19:33:26 发布

silent56_th

最新推荐文章于 2021-06-14 19:33:26 发布

阅读量3.2k

点赞数

分类专栏：大数据算法文章标签：大数据算法随机算法中值

本文链接：https://blog.csdn.net/silent56_th/article/details/78148856

版权

这篇博客介绍了大数据算法中的中值寻找策略，包括随机选取算法（RANDOM SELECT）的平均O(N)复杂度，中值的中值算法确保好情况发生，以及在内存限制下，One Pass算法如何以高概率返回中值，讨论了算法复杂度和内存空间的影响。

摘要由CSDN通过智能技术生成

大数据算法的课程笔记，包括四种中值搜索算法。包括最简单的先搜索后检索，平均算法复杂度为O(N)的简单随机选取算法，确定性的中值的中值算法，大概率返回中值的one pass算法。

1. 最简单的方法：先排序再返回中值

排序算法是 $O(N\log N)$ ，返回中值是 $O(1)$ 。

整体算法复杂度是 $O(N\log N)$ 。

2. 随机选取算法：RANDOM SELECT

算法简单，并且平均和最好的时间复杂度为 $O(N)$ ，最差的时间复杂度是 $O(N^2)$ 。

2.1. 算法

算法的目的是寻找长度为 $N$ 的序列array的第 $k$ 个数字。

具体的操作是随机选取一个数字，然后将序列分为比其小和比其大的两个序列，然后递归。

def find_kth_number(array,N,k):
    if N < 5:
        sort(array)
        return array[k]
    index = random_pick_from(0...N)
    divide the array into array_L and array_R, where
        for al in array_L, al <= array[index]
        for ar in array_R, ar > array[index]
        array_L + array_R + {array[index]} = array
    if |array_L| > k
        return find_kth_number(array_L,|array_L|,k)
    else
        return find_kth_number(array_R,|array_R|,k-|array_L|-1)