RDD的创建 -Scala educoder

最新推荐文章于 2024-04-30 00:20:09 发布

本人已run不再更新内容保留有错见谅

最新推荐文章于 2024-04-30 00:20:09 发布

阅读量2.8k

点赞数 5

分类专栏： educoder 文章标签： scala database 大数据

原文链接：https://blog.csdn.net/Junds0/article/details/124015642

版权

educoder 专栏收录该内容

35 篇文章 73 订阅

订阅专栏

这两篇博客展示了Apache Spark在数据处理中的应用。第一篇涉及将多个数组合并并创建RDD，然后通过reduceByKey操作聚合相同键值对。第二篇则演示了从外部文件读取数据，通过map转换数据格式，再使用reduceByKey统计出现次数，并按降序排列输出。

摘要由CSDN通过智能技术生成

第1关：集合并行化创建RDD

import org.apache.spark.{SparkConf, SparkContext}
object Student {  
  def main(args: Array[String]): Unit = {  
    val conf = new SparkConf().setAppName(this.getClass.getSimpleName).setMaster("local")  
    val sc = new SparkContext(conf)  
    val arr1=Array(("bj",88),("sh",67),("gz",92))  
    val arr2=Array(("bj",94),("sh",85),("gz",95))  
    val arr3=Array(("bj",72),("sh",69),("gz",98))  
    /********** begin **********/  
    //第一步：先将数组进行合并  
    val arr = arr1++arr2++arr3  
    //第二步：创建RDD  
    val stuRDD = sc.makeRDD(arr)  
    //第三步：把相同key的进行聚合  
    val result = stuRDD.reduceByKey(_+_)  
    //第四步：输出  
    result.foreach(println)  
    /********** end **********/  
    sc.stop()  
  }  
}

第2关：读取外部数据集创建RDD

import org.apache.spark.rdd.RDD  
import org.apache.spark.SparkContext  
import org.apache.spark.SparkConf
object Teachers {  
  def main(args: Array[String]): Unit = {  
    val conf = new SparkConf().setAppName("Teachers").setMaster("local")  
    val sc = new SparkContext(conf)  
    val dataFile = "file:///root/step2_files"  
    /********** begin **********/  
    //第一步：以外部文件方式创建RDD  
    val teaRDD = sc.textFile(dataFile)  
    //第二步：将文件中每行的数据切分，得到自己想要的返回值  
    val teacher = teaRDD.map(line => {  
      val course = line.split(",")(0)  
      val name = line.split(",")(1)  
      (name,1)  
    })  
    //第三步：将相同的key进行聚合  
    val tea= teacher.reduceByKey(_+_)  
    //第四步：按出现次数进行降序  
    val result=tea.sortBy(_._2,false)  
    //第五步：输出  
    result.foreach(println)  
  /********** end **********/  
    sc.stop()  
  }  
}