Spark reduceByKey

塞上江南o

已于 2022-09-22 15:03:29 修改

阅读量289

点赞数 1

分类专栏： Spark 文章标签： spark

于 2020-11-29 14:39:59 首次发布

本文链接：https://blog.csdn.net/qq_43192537/article/details/110312384

版权

Spark 专栏收录该内容

44 篇文章 3 订阅

订阅专栏

本文介绍了Spark的reduceByKey操作，通过示例展示了如何使用该功能来统计单词出现次数和计算平均成绩。在第一个案例中，实现了对RDD数据按key聚合，计算每个单词的总出现次数。在小练习中，通过转换和聚合操作，计算了每个学生（以姓名为key）的平均成绩。最终输出了平均成绩结果。

摘要由CSDN通过智能技术生成

spark outline

大纲目录

Spark reduceByKey 功能

按照相同的key，对value进行聚合

案例演示

有List((“a”, 1), (“b”, 3), (“a”, 5), (“b”, 2))
(“b”, 3)：表示b这个单词出些3次
需求：统计各个单词出现总次数，并输出到控制台

(a,6)
(b,5)

package com.xcu.bigdata.spark.core.pg02_rdd.pg022_rdd_transform

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

/**
 * @Desc : 按照相同的key，对value进行聚合
 */
object Spark13_ReduceByKey {
  def main(args: Array[String]): Unit = {
    //创建配置文件
    val conf: SparkConf = new SparkConf().setAppName("Spark13_ReduceByKey").setMaster("local[*]")
    //创建SparkContext,该对象是提交的入口
    val sc = new SparkContext(conf)
    //创建RDD
    val rdd: RDD[(String, Int)] = sc.makeRDD(List(("a", 1), ("b", 3), ("a", 5), ("b", 2)))
    //按照相同的key，进行聚合
    val resRDD: RDD[(String, Int)] = rdd.reduceByKey((x: Int, y: Int) => {
      x + y
    })
    //打印输出
    resRDD.collect().foreach(println)
    //释放资源
    sc.stop()
  }
}

小练习：用reduceBykey求平均成绩

package com.xcu.bigdata.spark.core.pg02_rdd.pg022_rdd_transform

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

/**
 * @Desc : 求平均值
 */
object Spark13_ReduceByKeyPractice {
  def main(args: Array[String]): Unit = {
    //创建配置文件
    val conf: SparkConf = new SparkConf().setAppName("Spark13_ReduceByKeyPractice").setMaster("local[*]")
    //创建SparkContext,该对象是提交的入口
    val sc = new SparkContext(conf)
    //创建RDD
    val rdd: RDD[(String, Int)] = sc.makeRDD(List(("zs", 90), ("lisi", 60), ("zs", 96), ("lisi", 62), ("zs", 100), ("lisi", 50)))
    //转换结构
    val mapRDD: RDD[(String, (Int, Int))] = rdd.map {
      case (name, score) => {
        (name, (score, 1))
      }
    }
    //聚合
    val reduceByKeyRDD: RDD[(String, (Int, Int))] = mapRDD.reduceByKey(
      (t1: (Int, Int), t2: (Int, Int)) => {
        (t1._1 + t2._1, t1._2 + t2._2)
      }
    )
    //求平均值
    val resRDD: RDD[(String, Int)] = reduceByKeyRDD.map {
      case (name, (score, count)) => {
        (name, score / count)
      }
    }
    //打印输出
    resRDD.collect().foreach(println)
    //释放资源
    sc.stop()
  }
}