百度抽样算法面试题(部分)

1.  给你一个长度为N的链表。N很大,但你不知道N有多大。你的任务是从这N个元素中随机取出k个元素。你只能遍历这个链表一次。你的算法必须保证取出的元素恰好有k个,且它们是完全随机的(出现概率均等)。

解:先选中前k个, 从第k+1个元素到最后一个元素为止, 以k/i (i=k+1, k+2,...,N) 的概率选中第i个元素,并且随机替换掉一个原先选中的元素, 这样遍历一次得到k个元素, 可以保证完全随机选取。这个算法叫做蓄水池抽样,在某门课上听到的,证明起来也不是很复杂。

证:最后一个元素选中概率=K/N,倒数第2个元素选中概率=(K/N-1)*(1-(K/N)*(1/K))=K/N,以此类推……

2.  如何从n个排序的对象中选择一个,但实现不知道n的大小

解:总是选择第一个对象,并使用1/2的概率选择第二个对象,使用1/3的概率选择第三个对象,以此类推。在过程结束时,每个对像被选中的概率都是1/n。

3.  给你一个数组A[1..n],请你在O(n)的时间里构造一个新的数组B[1..n],使得B[i]=A[1]*A[2]*...*A[n]/A[i]。你不能使用除法运算。

解:从前往后扫一遍,然后从后往前再扫一遍。也就是说,线性时间构造两个新数组,P[i]=A[1]*A[2]*...*A[i],Q[i]=A[n]*A[n-1]*...*A[i]。于是,B[i]=P[i-1]*Q[i+1]。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
水库抽样算法是一种用于估计大规模数据集某个属性的方法。它的基本思想是在不遍历整个数据集的情况下,通过随机抽样的方式获取部分数据来进行估计。 数学上,我们可以用概率论的方法来证明水库抽样算法的有效性。设想我们有一个包含N个元素的数据集,我们希望通过抽样得到一个大小为k的样本,其个元素被选的概率都是相等的。 假设我们进行一次抽样,某个元素被选的概率为p。由于每个元素被选的概率相等,所以我们可以得到如下等式: p = k / N 假设我们进行了m次抽样,每次都独立地选择元素。在我们来考虑某个特定的元素,在m次抽样都没有被选的概率。 在第一次抽样,该元素没有被选的概率为 (1-p) = (N-k)/N 在第二次抽样,该元素没有被选的概率也为 (N-k)/N 以此类推,在m次抽样都没有被选的概率为 ((N-k)/N)^m 在我们来考虑该元素至少在m次抽样被选一次的概率。这个概率可以用1减去上面的概率来计算,即: 1 - ((N-k)/N)^m 当m趋近于无穷大时,上式的 ((N-k)/N)^m 会趋近于0,所以该元素至少在m次抽样被选一次的概率会趋近于1。这意味着随着抽样次数的增加,每个元素被选的机会趋近于相等,满足我们的要求。 综上所述,通过数学证明我们可以得出结论:水库抽样算法能够以相等的概率对数据集的每个元素进行抽样,从而实对整个数据集进行估计。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

ncst

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值