RDD的创建-Scala

最新推荐文章于 2024-04-29 00:58:55 发布

咖啡不提神

最新推荐文章于 2024-04-29 00:58:55 发布

阅读量311

点赞数 1

文章标签： scala 开发语言后端

本文链接：https://blog.csdn.net/m0_52680439/article/details/134354674

版权

第1关：集合并行化创建RDD

知识点

1.reduceByKey()：对元素为RDD[K,V]对的RDD中Key相同的元素的Value进行聚合。

2.foreach()：对数据集中每一个元素运行函数。

编程要求

计算并输出各个学生的总成绩。

("bj",88)： bj指学生姓名，88指学生成绩

import org.apache.spark.SparkContext
import org.apache.spark.SparkConf

object Student {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName(this.getClass.getSimpleName).setMaster("local")
    val sc = new SparkContext(conf)
    val arr1=Array(("bj",88),("sh",67),("gz",92))
    val arr2=Array(("bj",94),("sh",85),("gz",95))
    val arr3=Array(("bj",72),("sh",69),("gz",98))
    /********** begin **********/
    //第一步：先将数组进行合并
    val arr=arr1++arr2++arr3

    //第二步：创建RDD
    val arrRDD=sc.makeRDD(arr)

    //第三步：把相同key的进行聚合
    val result=arrRDD.reduceByKey(_+_)

    //第四步：输出
    result.foreach(println)
	/********** end **********/
    sc.stop()
  }
}

第2关：读取外部数据集创建RDD

知识点

1.textFile()：读取文件

2.map算子：对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。

scala> val numbers=sc.makeRDD(List(1,2,3,4))
scala> numbers.map((i: Int) => i * 2)
res0: List[Int] = List(2, 4, 6, 8)

3.sortBy()：对RDD中的元素进行排序

val list = List(("spark",2),("hive",1),("hadoop",4))
val stuRDD = sc.makeRDD(list)
stuRDD.sortBy(_._2,false,3)//参数1：函数，排序规则有这个函数决定（必填）  参数2：升降序（true为升序，false为降序） 参数3：分区数量

编程要求

按每位老师出现的次数降序，输出老师姓名和出现次数。

输入文件样例：

bigdata,laozhang

bigdata,laoduan

javaee,xiaoxu

bigdata指科目，laozhang指老师名称

import org.apache.spark.SparkContext
import org.apache.spark.SparkConf

object Teachers {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("Teachers").setMaster("local")
    val sc = new SparkContext(conf)
    val dataFile = "file:///root/step2_files"
    /********** begin **********/
    //第一步：以外部文件方式创建RDD
    val teaRDD=sc.textFile(dataFile)
    //第二步：将文件中每行的数据切分，得到自己想要的返回值
    val teacher=teaRDD.map(line => {

       val course=line.split(",")(0)

       val name=line.split(",")(1)

        (name,1)

    })

    //第三步：将相同的key进行聚合
    val tea=teacher.reduceByKey(_+_)

    //第四步：按出现次数进行降序
    val result=tea.sortBy(_._2,false,3)

    //第五步：输出
    result.foreach(println)
	/********** end **********/
    sc.stop()
  }
}