现有需求要创建一个空的RDD不含任何元素和分区
首先想到的是:
val emptyRDD = sc.makeRDD(Array())
可是这么创建居然会报错!!!
然后想着自己写个类继承RDD抽象类,可以实现。
不过这两天发现居然spark其实已经为我们写好了EmptyRDD,源码如下
package org.apache.spark.rdd
import scala.reflect.ClassTag
import org.apache.spark.{Partition, SparkContext, TaskContext}
/**
* An RDD that has no partitions and no elements.
*/
private[spark] class EmptyRDD[T: ClassTag](sc: SparkContext) extends RDD[T](sc, Nil) {
override def getPartitions: Array[Partition] = Array.empty
override def compute(split: Partition, context: TaskContext): Iterator[T] = {
throw new UnsupportedOperationException("empty RDD")
}
}
我们可以使用SparkContext对象来创建
val emptyRDD = new SparkContext(new SparkConf()).emptyRDD[T]