spark中mapPartitions双重循环或两次遍历(duplicate)

本文介绍了在Spark中如何正确地使用Iterator进行多次迭代的方法,包括如何解决Iterator只能被迭代一次的问题,通过示例展示了如何利用duplicate和toList来实现对数据的多次遍历。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在spark当中通常需要对mapPartitions内部进行计算,这样可以在不进行网络传输的情况下,对数据进行局部计算

而mapPartitions中的迭代器为Iterator

scala中的Iterator只能进行一次迭代,使用过后就消失了,所以在mapPartitions中既不能两次遍历

如:一次mapPartitions求最大最小值

val it = Iterator(20, 40, 2, 50, 69, 90)
println(“Maximum valued element ” + it.max) // 90
println(“Minimum valued element ” + it.min) // 出错

同理,如果进行双重循环等操作,在内部循环第一次循环完毕时,外部循环也会直接跳出

(而这对于计算而言很重要 )


所以在使用两次遍历或双重循环时需要对Iterator进行拷贝

需要用到关键字    duplicate 和 iter.toList

示例如下:(计算KNN高斯核密度)

def gaussianKernel(iterator: Iterator[DenseVector[Double]]): Iterator[Tuple2[DenseVector[Double], Double]] = {
    var res = List[(DenseVector[Double], Double)]()
    val (bakiter, curiter) = iterator.duplicate
    val (sizeiter, tmpiter) = bakiter.duplicate
    val tmplist = tmpiter.toList
    val curlist = curiter.toList
    val size = sizeiter.size
    val k = sqrt(size).toInt
    curlist.foreach { cur =>
      var sumtmp = 0.0
      val abfDist = ArrayBuffer[Double]()
      tmplist.foreach { tmp =>
        abfDist += exp(-sum(pow(cur - tmp, 2)) / (2.0 * C))
      }
      val abfDistSorted = abfDist.sorted
      for (i <- 0 until k) {
        sumtmp += abfDistSorted(size - 1 - i)
      }
      res.::=(cur, sumtmp)
    }
    res.iterator
  }

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值