Spark的RDD连续转换操作有时需要注意强行触发action执行操作，否则（Tansformation）的惰性（lazy）机制会导致结果错误

最新推荐文章于 2023-03-30 16:40:43 发布

officercat

最新推荐文章于 2023-03-30 16:40:43 发布

阅读量3.5k

点赞数 1

分类专栏： Spark/大数据处理编程技术文章标签： spark rdd lazy 转换 action

本文链接：https://blog.csdn.net/officercat/article/details/82114271

版权

在Spark中，由于RDD的惰性计算（lazy）机制，转换操作（transformation）不会立即执行，只有遇到行动操作（action）时才会触发。这可能导致意外的重复计算或结果错误。例如，当使用相同的数组生成多个RDD并进行拼接时，如果数组内容在转换过程中变化，结果可能不正确。为避免这种情况，可以适时使用count或cache等行动操作强制执行转换，确保数据的一致性。

摘要由CSDN通过智能技术生成

最近通过spark做一些数据处理，遇到一些诡异的现象

我开发了一个随机生成海量数据点的程序，因为要保证这些点具有自增序号，不适合直接map分布式做（几十亿的数据，map计算需要分区（不主动分区估计也会自动分区，spark自带的数据累加逻辑只能对单个partition分区内有效），需要在driver里进行序号计算，所以就想通过数组分批生成数据，转换成RDD，在依次拼接（union）起来，就是下面的代码。

 val array = ArrayBuffer[(String,String)]()
 var i=0l
 var rdd:RDD[(String,String)] = sc.makeRDD(array)
 
 for(i<- 1l to size)
 {
        val name = "王".toString.concat((i % 1000).toString)
        array +=((i.toString, name))
        if(i%part_size == 0)
        {
            val rdd1 = sc.makeRDD(array)
            rdd1.cache
            val pre_rdd = rdd
            rdd= rdd.union(rdd1)
            rdd.cache()
            array.clear()
            rdd1.unpersist()
            pre_rdd.unpersist()
          }

    }
    if(array.length>0)
    {
      val rdd1 = sc.parallelize(array)
      rdd1.cache
      val pre_rdd = rdd
      rdd=rdd.union(rdd1)
      rdd.cache()
      pre_rdd.unpersist()
      rdd1.unpersist()
    }

好了，经验丰富或者了解相关基础知识的同学，知道上面代码有问题后，应该很快能看出问题在哪儿了，其他人是不是看着计算逻辑挺正常？

但如果我输入size=8,part_size=5,就是输出8个点，分批计算，每批算5个点。不管分几批，对结果应该没影响，最终结果就是

(1,xxxx）（2,