Spark算子--Scala版本 educoder

第1关:转换算子之map和distinct算子


import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object EduCoder1 {
    def main(args: Array[String]): Unit = {
    val conf =new SparkConf().setAppName("educoder1").setMaster("local")
    val sc=new SparkContext(conf)
    val rdd = sc.parallelize(List("dog","an","cat","an","cat"))
   
    
	/********** Begin **********/
    //第一步:通过获取rdd中每个元素的长度创建新的rdd1
	val rdd1=rdd.map(x=>x.length)
	//第二步:通过zip把rdd1和rdd组合创建rdd2
	val rdd2=rdd.zip(rdd1)
	//第三步:去重
	val rdd3=rdd2.distinct()
	//第四步:输出结果
	rdd3.foreach(println)  
	
	
	/********** End **********/
  
    sc.stop()
  }

}

第2关:转换算子之flatMap和filter算子



import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object EduCoder2 {
    def main(args: Array[String]): Unit = {
    val conf =new SparkConf().setAppName("educoder2").setMaster("local")
    val sc=new SparkContext(conf)
    val rdd=sc.textFile("file:///root/step3_fils")
    

	/********** Begin **********/
    //第一步:对所给数据创建的rdd切割分词
	 val rdd1=rdd.flatMap(t=>t.split(","))

	//第二步:每个单词计数为1
	 val rdd2= rdd1.map(t=>(t,1))
	//第三步:对相同单词个数进行累加
	 val rdd3=rdd2.reduceByKey(_+_)
	//第四步:过滤出单词个数大于一个的
	 val rdd4= rdd3.filter(t=>t._2>1)
	//第五步:输出结果
	 rdd4.foreach(println)
	
	/********** End **********/

    sc.stop()
  }

}

第3关:转换算子之reduceBykey和mapValues算子


import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object EduCoder3 {
    def main(args: Array[String]): Unit = {
	
    val conf =new SparkConf().setAppName("educoder3").setMaster("local")
    val sc=new SparkContext(conf)
    
	/********** Begin **********/
   //通过给定数据通过序列化方式创建rdd

    val rdd = sc.parallelize(List(("spark",(10,50)),("hadoop",(5,40)),("hadoop",(10,25)),("spark",(40,25))))

    //求出一天收入总和以及出售本数

    val rdd2 = rdd.reduceByKey((x,y) => ((x._1*x._2)+(y._1*y._2), x._1+y._1))

    //求出每本平均售价

    val rdd3 = rdd2.mapValues(x => x._1 / x._2)

    //输出结果

    rdd3.foreach(println)

    /********** End **********/
   
    sc.stop

}
}

第4关:转化算子之groupByKey和sortByKey


import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object EduCoder4 {
    def main(args: Array[String]): Unit = {
    val conf =new SparkConf().setAppName("educoder4").setMaster("local")
    val sc=new SparkContext(conf)
   val rdd = sc.parallelize(List(("Bob","spark"),("Lily","hadoop"),("Candy","hive"),("Bob","hbase"),("Bob","hive")))
     
	/********** Begin **********/
    val rdd1= rdd.groupByKey()

    //求出每个人的书籍本数

    val rdd2= rdd1.mapValues(t=>t.toList.size)

    //根据姓名排序

    val rdd3= rdd2.sortByKey()

    //打印结果

    rdd3.foreach(println)

	
	/********** End **********/
    sc.stop()
  }

}

第5关:常见行动算子


import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object EduCoder5 {
    def main(args: Array[String]): Unit = {
    val conf =new SparkConf().setAppName("educoder5").setMaster("local")
    val sc=new SparkContext(conf)
    val rdd = sc.parallelize(List("dog","sun","an","cat"))
     
	/********** Begin **********/
   
	 //返回所给rdd的元素个数并输出

    val r1=rdd.count()

        println(r1)

    //返回rdd的前三个元素并输出

        val rdd1=rdd.take(3)

        rdd1.foreach(println)

    //累加rdd的所有元素并输出结果

        val r2=rdd.reduce(_+_)

        println(r2)

        //收集所有元素并且输出

       rdd.collect().foreach(println)





	/********** End **********/
   
    sc.stop()
  }

}

第6关:算子的综合使用案例

import org.apache.spark.rdd.RDD  
import org.apache.spark.{SparkConf, SparkContext}  
object EduCoder {  
def main(args: Array[String]): Unit = {  
val conf =new  SparkConf().setAppName("educoder").setMaster("local")  
val sc=new SparkContext(conf)  
val line=sc.textFile("file:///root/step1_fils")   
/********** Begin **********/  
//根据需求,去除城市字段  
val rdd1 = line.map(t => {   
val arr = t.split(",")   
((arr(0), arr(1), arr(2), arr(3)), arr(5))   
})  
//按key分组,key是除城市字段和版本号字段``以外的所有字段,value是版本号  
val rdd2=rdd1.groupByKey()  
//过滤版本号重复的``(例:(v2.0,v2.0))以及版本号只有一个的(例(v1.0))    
val rdd3=rdd2.mapValues(t=>t.toList.distinct).filter(t=>t._2.length>1)  
//拆分重新组合 例:(key,(v2.0,v2.5,v3.0))拆分成(key,(v2.0,v2.5),((key,(v2.5,v3.0)))  
val rdd4= rdd3.mapValues(t => {    
val tai = t.tail    
t.zip(tai)   
})   
//按需求整理输出格式(例:(2017-08-14,Lily,Facebook,360  Shop,v1.2,v2.0))  
val rdd5= rdd4.flatMap(t => {   
t._2.map(tp => {   
(t._1._1, t._1._2, t._1._3, t._1._4, tp._1, tp._2)  
})  
})  
//执行foreach操作,打印出结果  
rdd5.foreach(println)  
/********** End **********/  
sc.stop()    
}   
}

  • 10
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Spark算子Spark框架中的一种操作符,用于对RDD(弹性分布式数据集)进行转换和操作。Scala版本Spark算子可以通过编写Scala代码来实现,常用的算子包括map、filter、reduce、join等。这些算子可以帮助开发者快速地进行数据处理和分析,提高数据处理效率和准确性。 ### 回答2: Spark算子Spark中的一个很重要的概念,它主要是用于数据的转换和处理。在Scala版本中,Spark算子有两种不同的类型,一个是转换操作的算子,另一个是行动操作的算子。这些算子被组织成RDD的API,以便在分布式环境中进行操作,从而实现高效的计算。 对于Spark算子来说,它的灵活性和方便性是非常重要的。因为在实际应用中,数据的处理往往是非常复杂和混杂的。这时,使用Spark算子可以很快地将数据转换成需要的格式,以便进行后续的处理。同时,Spark算子还可以极大地提高处理数据的效率,因为它们是在分布式集群上进行处理的,这样就可以大大缩短处理时间。 在Scala版本中,首要的算子map算子,它可以非常方便地对数据进行转换。除此之外,还有很多常用的算子,比如flatMapreduceByKey、groupBy等,它们都具有一些独特的特性和用法,可以根据实际情况选择使用。当然,对于更加复杂的数据处理操作,也可以自定义函数来实现。Spark算子可以很容易地与自定义函数进行结合,从而实现更加灵活的数据处理操作。 总之,Spark算子Spark中一个非常重要的概念,它可以帮助我们高效地转换和处理数据。在Scala版本中,Spark算子是非常方便和易用的,可以满足各种不同场景下的需求。无论是初学者还是专业人士,都可以通过学习Spark算子来进一步提高自己的数据处理和计算能力。 ### 回答3: Spark是一种流行的分布式计算框架,它提供了自己的编程模型,称为Resilient Distributed Datasets(RDDs)。Scala是一种运行在Java虚拟机上的编程语言,它可以与Spark很好地配合使用,为Spark提供了Scala API,使得开发者可以使用Scala语言进行Spark开发。 在Scala API中,Spark提供了很多有用的算子,这些算子可以用于在分布式集群上操作RDDs。这些算子可以分为两类:转换算子和动作算子转换算子用于接受一个RDD,并返回一个新的RDD,这个新的RDD表示对原始RDD的一些转换操作。在这里,我们可以使用各种不同的转换功能,例如map、flatMap和filter。这些算子允许我们执行各种数据操作,例如将一组元素映射到另一组元素,或者仅选择符合某些条件的元素,等等。 动作算子用于接受一个RDD,并返回单个结果。这些算子在执行过程中会计算原始RDD的结果,并将结果返回给驱动程序。这些算子包括reduce、count、collect和foreach等。在这里,我们可以使用这些算子计算和收集RDD中特定的元素或结果。 总之,Spark算子Spark Scala API中的核心组件,使得开发者可以简便地操作分布式计算集群上的大型数据集。这些算子是开发Spark应用程序的基本部分,开发者应该了解它们的工作方式,以便能够更高效地处理数据。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值