大数据算法课程笔记1:寻找中值算法之随机选取,中值的中值,One Pass算法

这篇博客介绍了大数据算法中的中值寻找策略,包括随机选取算法(RANDOM SELECT)的平均O(N)复杂度,中值的中值算法确保好情况发生,以及在内存限制下,One Pass算法如何以高概率返回中值,讨论了算法复杂度和内存空间的影响。
摘要由CSDN通过智能技术生成

大数据算法的课程笔记,包括四种中值搜索算法。包括最简单的先搜索后检索,平均算法复杂度为O(N)的简单随机选取算法,确定性的中值的中值算法,大概率返回中值的one pass算法。

1. 最简单的方法:先排序再返回中值

排序算法是 O(NlogN) ,返回中值是 O(1)

整体算法复杂度是 O(NlogN)

2. 随机选取算法:RANDOM SELECT

算法简单,并且平均和最好的时间复杂度为 O(N) ,最差的时间复杂度是 O(N2)

2.1. 算法

算法的目的是寻找长度为 N 的序列array的第 k 个数字。

具体的操作是随机选取一个数字,然后将序列分为比其小和比其大的两个序列,然后递归。

def find_kth_number(array,N,k):
    if N < 5:
        sort(array)
        return array[k]
    index = random_pick_from(0...N)
    divide the array into array_L and array_R, where
        for al in array_L, al <= array[index]
        for ar in array_R, ar > array[index]
        array_L + array_R + {array[index]} = array
    if |array_L| > k
        return find_kth_number(array_L,|array_L|,k)
    else
        return find_kth_number(array_R,|array_R|,k-|array_L|-1)

2.2. 算法复杂性

先给出结论: T(N)=O(N) 。注意这个是平均值,即 T(N) 的期望。接下来采用两种证明方式对其进行证明:

2.2.1. 课上方法:直接通过公式推算

从上面的算法可以得到如下公式:

T(N,k)=O(N)+1Ni=0kT(Ni1,ki1)+1Ni=k+1NT(i,k)

T(N)=maxkT(N,k)=T(N,N/2) ,则有

T(N)O(N)+2Ni=N2+1NT(i)

假设 T(n)Cn for all n<N ,则有
T(N)O(N)+2NN2C34N<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值