Spark学习

最新推荐文章于 2024-08-06 21:10:17 发布

F.t

最新推荐文章于 2024-08-06 21:10:17 发布

阅读量111

点赞数

分类专栏：学习笔记文章标签： Spark scala

本文链接：https://blog.csdn.net/weixin_42345229/article/details/100985130

版权

学习笔记专栏收录该内容

7 篇文章 0 订阅

订阅专栏

RDD

parallelize
- 创建RDD两种方式
   （一）.从内存中创建
               - makeRDD

#创建方法如下
val listRDD: RDD[Int] = sc.makeRDD(List(1,2,3,4))

#makeRDD源码
def makeRDD[T: ClassTag](
      seq: Seq[T],
      numSlices: Int = defaultParallelism): RDD[T] = withScope {
    parallelize(seq, numSlices)
  }

- parallelize

#parallelize源码
def parallelize[T: ClassTag](
      seq: Seq[T],
      numSlices: Int = defaultParallelism): RDD[T] = withScope {
    assertNotStopped()
    new ParallelCollectionRDD[T](this, seq, numSlices, Map[Int, Seq[String]]())

综合上述两个方法来讲，makeRDD其实和parallelize一样，makeRDD底层还是parallelize来实现的

（二）从外部数据源读取创建RDD

#textfile创建方法
val textRDD: RDD[String] = sc.textFile("/user/input/data.txt")
#这里的路径写法有两种

#本地模式----->file:///home/hadoop/intput/data.txt

#hdfs---->hdfs:///yourhost:9000/user/input/data.txt

#不过可以只写当前工程下的目录

#textfile 分区参数说明

#textfile源码如下
def textFile(
      path: String,
      minPartitions: Int = defaultMinPartitions): RDD[String] = withScope {
    assertNotStopped()
    hadoopFile(path, classOf[TextInputFormat], classOf[LongWritable], classOf[Text],
      minPartitions).map(pair => pair._2.toString).setName(path)
  }

#分片规则按照hadoopFile也就是hdfs分片规则，类似hdfs中的1.1%
#当sc.textFile("/user/input/data.txt"，2)，第二个参数为最小分区数，从源码中可以看出minPartitions，因为我们不确定文件内有多少数据

#文件内容为（12345），五位数字/最小分区数2有余数，那么结果文件数量根据设置的分区数量来说，会出现3个文件part-0，part-1,part-2，文件内容可想而知12，34，5

F.t

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark学习

RDD parallelize- 创建RDD两种方式（一）.从内存中创建 - makeRDD #创建方法如下val listRDD: RDD[Int] = sc.makeRDD(List(1,2,3,4))#makeRDD源码def makeRDD[T: ClassTag]( seq: Seq[T...
复制链接

扫一扫

专栏目录