Spark-makeRDD分区源码解析

最新推荐文章于 2021-04-22 08:32:30 发布

食鱼酱

最新推荐文章于 2021-04-22 08:32:30 发布

阅读量599

点赞数

分类专栏： Spark 文章标签：大数据 spark

本文链接：https://blog.csdn.net/weixin_38278878/article/details/107652657

版权

起因

object Spark_MakeRDD {
    def main(args: Array[String]): Unit = {

        val sparkConf = new SparkConf().setMaster("local[*]").setAppName("List-RDD")

        val sc : SparkContext = new SparkContext(sparkConf)
        
        // 设置3个分区
        val rdd = sc.makeRDD(List(1,2,3,4,5), 3)
        
        // 保存到output文件夹中
        rdd.saveAsTextFile("output")
        
        sc.stop()
    }
}

运行上述这段代码后，生成了3个文件，

文件名	内容
part-00000	1
part-00001	2 3
part-00004	4 5

又运行了两次，结果仍是一样，说明不具有随机算法。感觉很奇怪，为何不是下面这样呢？

文件名	内容
part-00000	1 2
part-00001	3 4
part-00004	5

流程分析

1.进入SparkContext的makeRDD方法中

  /** Distribute a local Scala collection to form an RDD.
   *
   * 这个方法和parallelize相同
   * 参数seq 是操作的集合类
   * 参数numSlices 是分区数
   * @return RDD representing distributed collection
   */
  def makeRDD[T: ClassTag](
      seq: Seq[T],
      numSlices: Int = defaultParallelism): RDD[T] = withScope {
   
    parallelize(seq, numSlices)
  }

2.进入parallelize方法

  def parallelize[T: ClassTag](
      seq: Seq[T],
      numSlices: Int = defaultParallelism): RDD[T] = withScope {
   
    assertNotStopped()
    new ParallelCollectionRDD[T](this, seq, numSlices, Map[Int, Seq[String]](

最低0.47元/天解锁文章

食鱼酱

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark-makeRDD分区源码解析

起因object Spark_MakeRDD { def main(args: Array[String]): Unit = { val sparkConf = new SparkConf().setMaster("local[*]").setAppName("WordCount") val sc : SparkContext = new SparkContext(sparkConf) // 设置3个分区 val
复制链接

扫一扫