import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
object A_SparkGroupSort {
//scala程序的入口,也是spark application运行Driver
def main(args: Array[String]): Unit = {
//Spark app 配置:SparkAppTemplate
val sparkConf = new SparkConf()
.setAppName("A_SparkGroupSort")
.setMaster("local[2]")
//创建sparkContext对象:主要用于读取需要处理的数据,封装在RDD集合中;调度jobs执行
val sc = new SparkContext(sparkConf)
//第一步:数据的读取(输入)
val inputRDD: RDD[String] = sc.textFile("file:///D:/group.data")
//第二步:数据的处理(分析)
val resultRDD: RDD[(String, List[Int])] = inputRDD
.map(line =>{
val arr = line.trim.split(" ")
(arr(0),arr(1).toInt)
})
.groupByKey()
.map{
case (key:String,iter:Iterable[Int])=>{
val sort
Spark 二次排序·
最新推荐文章于 2022-08-09 22:37:29 发布
本文深入探讨了如何在Spark中实现二次排序,通过实例解析了处理包含中文的本地文件'group.data'的过程,揭示了在特定目录下避免中文字符的方法。
摘要由CSDN通过智能技术生成