parallelize
scala版本:
第一个参数:本地scala Seq集合;
第二个参数:numSlices partition的数量;
返回:RDD[T]
/** Distribute a local Scala collection to form an RDD.*/
def parallelize[T: ClassTag](seq: Seq[T],numSlices: Int = defaultParallelism): RDD[T] = withScope {}
scala> sc.parallelize(List(1,2,3))
scala版本:
第一个参数:只能接收List的集合,之后转为scala集合;
第二个参数:numSlices partition的数量;
【Typically you want 2-4 partitions for each CPU