1。parallelizePairs余parallelize
/** Distribute a local Scala collection to form an RDD. */
def parallelizePairs[K, V](list: java.util.List[Tuple2[K, V]], numSlices: Int)
: JavaPairRDD[K, V] = {
implicit val ctagK: ClassTag[K] = fakeClassTag
implicit val ctagV: ClassTag[V] = fakeClassTag
JavaPairRDD.fromRDD(sc.parallelize(list.asScala, numSlices))
}
可以源代码得到 parallelizePairs=======》调用===parallelize
parallelize相当于直接拷贝了原始数据(只不过可以并行计算,初学者可以这样理解)
parallelizePairs相当于直接拷贝了原始数据并且把第一个数据当做key(形成key-value的形式)
2。
subtractByKey