SparkRDD算子

本文介绍了Spark中的RDD算子,包括Transformation和Action。Transformation如map、filter延迟加载数据,而Action如collect、reduce立即执行计算。创建RDD的方法有从文件系统中创建和通过并行化scala集合创建。还详细讲解了parallelize、map、mapPartitions、repartition、sortBy等算子的使用和定义。
摘要由CSDN通过智能技术生成
SparkRDD算子分为两类:Transformation与Action.
Transformation:即延迟加载数据,Transformation会记录元数据信息,当计算任务触发Action,才会真正开始计算。
Action:即立即加载数据,开始计算。
创建RDD的方式有两种:
1、通过sc.textFile(“/root/words.txt”)从文件系统中创建 RDD。
2、#通过并行化scala集合创建RDD:val rdd1 = sc.parallelize(Array(1,2,3,4,5,6,7,8))
parallelize
定义:def parallelize[T](seq: Seq[T],numSlices: Int)(implicit evidence$1: scala.reflect.ClassTag[T]): org.apache.spark.rdd.RDD[T]
scala>  val rdd1=sc.parallelize(List(1,2,3,4,5,6,7),2)//分成两个区
scala> rdd1.map(_*2).collect
res6: Array[Int] = Array(2, 4, 6, 8, 10, 12, 14)
makeRDD
定义:def makeRDD[T](seq: Seq[(T, Seq[String])])(implicit evidence$3: scala.reflect.ClassTag[T]): org.apache.spark.rdd.RDD[T]   
def makeRDD[T](seq: Seq[T],numSlices: Int)(implicit evidence$2: scala.reflect.ClassTag[T]): org.apache.spark.rdd.RDD[T]
scala> val rdd3=sc.makeRDD(1 to 10)
rdd3: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[10] at makeRDD at <console>:24
scala> rdd3.collect
res40: Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9, 10)
map//处理一个/行数据
定义:def map[U](f: Int => U)(implicit evidence$3: scala.reflect.ClassTag[U]): org.apache.spark.rdd.RDD[U]
scala> val rdd1=sc.parallelize(List(1,2,3,4,5,6,7),2)//分成两个区
scala> rdd1.map(_*2).collect
res6: Array[Int] = Array(2, 4, 6, 8, 10, 12, 14)
scala> rdd.map(x=>(x,1)).collect//形成键值对,形成函数要加()
res17: Array[(Int, Int)] = Array((1,1), (2,1), (9,1), (7,1), (4,1))
mapPartitions//处理一批数据
定义:def mapPartitions[U](f: Iterator[String] => Iterator[U],preservesPartitioning: Boolean)(implicit evidence$6: scala.reflect.ClassTag[U]): org.apache.spark.rdd.RDD[U]
scala> var rdd1 = sc.makeRDD(1 to 5,4)
rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[2] at makeRDD at <console>:24
scala>     var rdd3 = rdd1.mapPartitions{ x => {
     |       var result = List[Int]()
     |           var i = 0
     |           while(x.hasNext){
     |             i += x.next()
     |           }
     |           result.::(i).iterator
     |       }}
rdd3: org.apache.spark.rdd.RDD[Int] = MapPartitionsRDD[3] at mapPartitions at <console>:25
scala> rdd3.collect//本是1到5的和,分成四个区
res2: Array[Int] = Array(1, 2, 3, 9)
mapPartitionsWithIndex
定义:def mapPartitionsWithIndex[U](f: (Int, Iterator[Int]) => Iterator[U],preservesPartitioning: Boolean)(implicit evidence$9: scala.reflect.ClassTag[U]): org.apache.spark.rdd.RDD[U]
var rdd1 = sc . makeRDD ( 1 to 5 , 2 )
//rdd1有两个分区
var rdd2 = rdd . mapPartitionsWithIndex {
( x ,
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

s_schen

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值