Spark 二次排序·

最新推荐文章于 2022-08-09 22:37:29 发布

Iamarookie999

最新推荐文章于 2022-08-09 22:37:29 发布

阅读量224

点赞数

文章标签： spark

本文链接：https://blog.csdn.net/Iamarookie999/article/details/98475530

版权

本文深入探讨了如何在Spark中实现二次排序，通过实例解析了处理包含中文的本地文件'group.data'的过程，揭示了在特定目录下避免中文字符的方法。

摘要由CSDN通过智能技术生成


import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object A_SparkGroupSort {
  //scala程序的入口，也是spark application运行Driver
  def main(args: Array[String]): Unit = {
    //Spark app 配置：SparkAppTemplate
    val sparkConf = new SparkConf()
      .setAppName("A_SparkGroupSort")
      .setMaster("local[2]")
    //创建sparkContext对象：主要用于读取需要处理的数据，封装在RDD集合中；调度jobs执行
    val sc = new SparkContext(sparkConf)

    //第一步：数据的读取（输入）
    val inputRDD: RDD[String] = sc.textFile("file:///D:/group.data")
    //第二步：数据的处理（分析）
    val resultRDD: RDD[(String, List[Int])] = inputRDD
        .map(line =>{
          val arr = line.trim.split(" ")
          (arr(0),arr(1).toInt)
        })
        .groupByKey()
        .map{
          case (key:String,iter:Iterable[Int])=>{
            val sort

最低0.47元/天解锁文章

Iamarookie999

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark 二次排序·

import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object A_SparkGroupSort { //scala程序的入口，也是spark application运行Driver def main(args: Array[String]): Unit = { ...
复制链接

扫一扫