spark怎么创建RDD，一个创建RDD的方式有哪些它们的区别是什么！！（Unit2）

最新推荐文章于 2018-09-21 10:28:53 发布

忘川风华录

最新推荐文章于 2018-09-21 10:28:53 发布

阅读量7.2k

点赞数

分类专栏： spark 文章标签： spark RDD 创建RDD 并行度

本文链接：https://blog.csdn.net/qq_36968512/article/details/80677134

版权

spark的编程接口包括
1.分区信息，数据集的最小分片
（1）Patitions（）用法：

scala> val part=sc.textFile("/user/README.md",6)
part: org.apache.spark.rdd.RDD[String] = /user/README.md MapPartitionsRDD[9] at textFile at <console>:24
scala> part.partitions.size
res3: Int = 6         #可以用来打印分区个数

2.依赖关系，指向其父RDD
（1）Dependencies（）使用方法：

scala> val part=sc.textFile("/user/README.md")
scala> val wordmap=part.flatMap(_.split(" ")).map(x=>(x,1))
scala> wordmap.dependencies.foreach{dep=> println(dep.getClass)}  #调取getClass方法可以获取依赖方式
class org.apache.spark.OneToOneDependency

scala> wordredue.dependencies.foreach{dep=> println(dep.getClass)}
class org.apache.spa

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

忘川风华录

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
spark怎么创建RDD，一个创建RDD的方式有哪些它们的区别是什么！！（Unit2）

spark的编程接口包括1.分区信息，数据集的最小分片（1）Patitions（）用法： scala&gt; val part=sc.textFile("/user/README.md",6)part: org.apache.spark.rdd.RDD[String] = /user/README.md MapPartitionsRDD[9] at textFile at ...
复制链接

扫一扫