Spark基础-parallelize函数和makeRDD函数的区别

匆匆喂

已于 2023-02-22 11:19:32 修改

阅读量2.2k

点赞数 1

文章标签： spark scala 大数据

于 2019-03-23 18:40:45 首次发布

原文链接：https://xiaotutu365.iteye.com/blog/2379890

版权

Spark提供了两种创建RDD的方式：读取外部数据集，以及在驱动器程序中对一个集合进行并行化。在驱动器程序中对一个集合进行并行化的方式有两种：parallelize()和makeRDD()。

1、parallelize()

Scala代码

def parallelize[T: ClassTag](  
      seq: Seq[T],  
      numSlices: Int = defaultParallelism): RDD[T] = withScope {  
    assertNotStopped()  
    new ParallelCollectionRDD[T](this, seq, numSlices, Map[Int, Seq[String]]())  
  }

2、makeRDD()，有两种重构方法，如下：

2.1、方法一：

/** Distribute a local Scala collection to form an RDD.  
   *  
   * This method is identical to `parallelize`.  
   */  
  def makeRDD[T: ClassTag](  
      seq: Seq[T],  
      numSlices: Int = defaultParallelism): RDD[T] = withScope {  
    parallelize(seq, numSlices)  
  }

可以发现，该重构方法的实现就是调用parallelize()方法。

2.2、方法二：

/**  
   * Distribute a local Scala collection to form an RDD, with one or more  
   * location preferences (hostnames of Spark nodes) for each object.  
   * Create a new partition for each collection item.  
   */  
  def makeRDD[T: ClassTag](seq: Seq[(T, Seq[String])]): RDD[T] = withScope {  
    assertNotStopped()  
    val indexToPrefs = seq.zipWithIndex.map(t => (t._2, t._1._2)).toMap  
    new ParallelCollectionRDD[T](this, seq.map(_._1), math.max(seq.size, 1), indexToPrefs)  
  }

注释的意思为：分配一个本地Scala集合形成一个RDD，为每个集合对象创建一个最佳分区。

给出如下例子，可以更清晰的看到它们之间的区别：

首先定义集合对象：

val seq = List(("American Person", List("Tom", "Jim")), ("China Person", List("LiLei", "HanMeiMei")), ("Color Type", List("Red", "Blue")))

使用parallelize()创建RDD：

val rdd1 = sc.parallelize(seq)

查询rdd1的分区数：

rdd1.partitions.size  // 2

使用makeRDD()创建RDD

val rdd2 = sc.makeRDD(seq)

查看rdd2的分区数

rdd2.partitions.size  // 3

想想为什么会是这样的结果？

当调用parallelize()方法的时候，不指定分区数的时候，使用系统给出的分区数，而调用makeRDD()方法的时候，会为每个集合对象创建最佳分区，而这对后续的调用优化很有帮助。

匆匆喂

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫