水塘抽样算法及其代码实现(Scala)

水塘抽样

水塘抽样是一系列的随机算法,其目的在于从包含n个项目的集合S中选取k个样本,其中n为一很大或未知的数量,尤其适用于不能把所有数据都存放到内存的情况,或者流式数据中的随机抽样

1. 当k=1的情况

要保证每个数等概率被抽中,那么每个数抽中的概率为1/N ,抽样策略为:以1/i 的概率保留第i个数:

P ( n i ) = 1 i ∗ ( 1 − 1 i + 1 ) ∗ ( 1 − 1 i + 2 ) … … ∗ ( 1 − 1 n − 1 ) ∗ ( 1 − 1 n ) = 1 i ∗ i i + 1 … … ∗ n − 2 n − 1 ∗ n − 1 n = 1 n P(n_i)= \frac{1}{i} * (1-\frac{1}{i+1} )*(1-\frac{1}{i+2}) ……*(1-\frac{1}{n-1})*(1-\frac{1}{n}) \\ = \frac{1}{i} * \frac{i}{i+1} ……* \frac{n-2}{n-1} * \frac{n-1}{n} = \frac{1}{n} P(ni)=i1(1i+11)(1i+21)(1n11)(1n1)=i1i+1in1n2nn1=n1

2. k>1的情况

k>1的情况要保证每个数倍抽中的概率都为 k/n ,此时的抽样策略为:第i个数我们以 k/i 的概率保留下来,并且随机替换前k个选中的数的一个。

P ( n i ) = k i ∗ [ ( 1 − k i + 1 ) + ( k i + 1 ) ( 1 − 1 / k ) ] ∗ [ ( 1 − k i + 2 ) + ( k i + 2 ) ( 1 − 1 / k ) ] … … ∗ [ ( 1 − k n ) + ( k n ) ( 1 − 1 / k ) ] = k i ∗ i i + 1 ∗ i + 1 i + 2 … … ∗ n − 1 n = k n P(n_i)= \frac{k}{i} * [(1-\frac{k}{i+1} ) + (\frac{k}{i+1})(1-1/k) ] *[ (1-\frac{k}{i+2} ) + (\frac{k}{i+2})(1-1/k) ] …… *[ (1-\frac{k}{n} ) + (\frac{k}{n})(1-1/k) ]\\ = \frac{k}{i} * \frac{i}{i+1} * \frac{i+1}{i+2} …… * \frac{n-1}{n} = \frac{k}{n} P(ni)=ik[(1i+1k)+(i+1k)(11/k)][(1i+2k)+(i+2k)(11/k)][(1nk)+(nk)(11/k)]=iki+1ii+2i+1nn1=nk

代码实现

  def reservoirSample(arr: Array[Int], k: Int = 1) = {

    // 前k个数,首先都会保留下来
    val res: Array[Int] = arr.take(k)
    for (i <- k until arr.length) {
      val c = math.random
      //  第 i 个数 (i>k) 以 k/i 的概率保留下来;
      if ((k / (i + 1.0)) >= c) {
        //  随机替换前面已选择的k个数中的任意一个 (每个数被替换的概率为1/k)
        res(Random.nextInt(k)) = arr(i)
      }
    }
    res
  }
  

数据验证:
  
  def main(args: Array[String]): Unit = {

    def fibFrom(a: Int, b: Int): Stream[Int] = a #:: fibFrom(b, a + b)

    val fbs = fibFrom(1, 2).take(8).toArray



    val fb = (1 to 80000).flatMap(x => reservoirSample(fbs,3).map(y => (y, 1)))
      .groupBy(_._1)
      .map(t => (t._1, t._2.map(_._2).sum))
      .toList.sortBy(_._1)

    println(fb)

 
数据结果:从数据流中抽取的数据结果符合预期
List((1,30132), (2,29966), (3,30100), (5,29941), (8,30089), (13,29827), (21,30127), (34,29818))

参考:

https://zhuanlan.zhihu.com/p/29178293?utm_source=wechat_timeline

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Scala是一种强大的静态类型、面向对象和函数式编程语言,常用于大数据处理和机器学习。Scalismo是一个Scala库,它提供了对支持向量机(SVM)算法实现。虽然完整的SVM实现可能会非常复杂且超出这个文本的范围,但我可以给你一个简单的示例,展示如何在Scalismo中使用libsvm库进行SVM分类。 首先,确保你已经在项目中添加了Scalismo和libsvm的相关依赖。以下是一个基本的示例,使用Scalismo的`Kernel`和`LibSvm`模块来训练一个SVM模型: ```scala import scalismo.common._ import scalismo.geometry._ import scalismo.statisticalmodel._ import scalismo.io.{VTKImageWriter, ImageIO} import scalismo.ml.feature._ import scalismo.ml.classification._ import org.jmlspecs.optimize.LimitedMemoryBFGS import breeze.linalg.DenseVector // 假设你有训练数据 (features, labels) val features: Array[DenseVector[Double]] = ... val labels: Array[Int] = ... // 将数据转换为Scalismo可用的格式 val featureVectors: PointSet = FeatureSpace[EuclideanPoint, Double].pointSetFromVectors(features.map(_.toArray)) val labelVectors: PointSet = PointSet(labelVectors.map(_.toInt)) // 创建一个SVM特征提取器 val svmFeatureExtractor = SVMKernelExtractor() // 训练SVM模型 val model = SVMModel.fit(featureVectors, labelVectors, SVMKernel(svmFeatureExtractor), LimitedMemoryBFGS()) // 预测新的数据点 val newFeature: DenseVector[Double] = ... val prediction = model.predict(newFeature) ``` 请注意,这只是一个简化的示例,实际应用中你可能需要对数据进行预处理(如归一化),划分训练集和测试集,以及调整参数以优化模型性能。Scalismo还提供了更多的功能,如交叉验证、网格搜索等。 相关问题: 1. Scalismo中如何处理和加载图像数据作为SVM的输入特征? 2. 如何选择和调整SVM的核函数(如线性、多项式或高斯核)? 3. 如何在Scalismo中进行模型评估和参数调优?
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值