Spark reduceByKey

本文介绍了Spark的reduceByKey操作,通过示例展示了如何使用该功能来统计单词出现次数和计算平均成绩。在第一个案例中,实现了对RDD数据按key聚合,计算每个单词的总出现次数。在小练习中,通过转换和聚合操作,计算了每个学生(以姓名为key)的平均成绩。最终输出了平均成绩结果。
摘要由CSDN通过智能技术生成

spark outline

大纲目录

Spark reduceByKey 功能

按照相同的key,对value进行聚合

案例演示

有List((“a”, 1), (“b”, 3), (“a”, 5), (“b”, 2))
(“b”, 3):表示b这个单词出些3次
需求:统计各个单词出现总次数,并输出到控制台

(a,6)
(b,5)

package com.xcu.bigdata.spark.core.pg02_rdd.pg022_rdd_transform

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

/**
 * @Desc : 按照相同的key,对value进行聚合
 */
object Spark13_ReduceByKey {
  def main(args: Array[String]): Unit = {
    //创建配置文件
    val conf: SparkConf = new SparkConf().setAppName("Spark13_ReduceByKey").setMaster("local[*]")
    //创建SparkContext,该对象是提交的入口
    val sc = new SparkContext(conf)
    //创建RDD
    val rdd: RDD[(String, Int)] = sc.makeRDD(List(("a", 1), ("b", 3), ("a", 5), ("b", 2)))
    //按照相同的key,进行聚合
    val resRDD: RDD[(String, Int)] = rdd.reduceByKey((x: Int, y: Int) => {
      x + y
    })
    //打印输出
    resRDD.collect().foreach(println)
    //释放资源
    sc.stop()
  }
}

小练习:用reduceBykey求平均成绩

package com.xcu.bigdata.spark.core.pg02_rdd.pg022_rdd_transform

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

/**
 * @Desc : 求平均值
 */
object Spark13_ReduceByKeyPractice {
  def main(args: Array[String]): Unit = {
    //创建配置文件
    val conf: SparkConf = new SparkConf().setAppName("Spark13_ReduceByKeyPractice").setMaster("local[*]")
    //创建SparkContext,该对象是提交的入口
    val sc = new SparkContext(conf)
    //创建RDD
    val rdd: RDD[(String, Int)] = sc.makeRDD(List(("zs", 90), ("lisi", 60), ("zs", 96), ("lisi", 62), ("zs", 100), ("lisi", 50)))
    //转换结构
    val mapRDD: RDD[(String, (Int, Int))] = rdd.map {
      case (name, score) => {
        (name, (score, 1))
      }
    }
    //聚合
    val reduceByKeyRDD: RDD[(String, (Int, Int))] = mapRDD.reduceByKey(
      (t1: (Int, Int), t2: (Int, Int)) => {
        (t1._1 + t2._1, t1._2 + t2._2)
      }
    )
    //求平均值
    val resRDD: RDD[(String, Int)] = reduceByKeyRDD.map {
      case (name, (score, count)) => {
        (name, score / count)
      }
    }
    //打印输出
    resRDD.collect().foreach(println)
    //释放资源
    sc.stop()
  }
}

结果:

(zs,95)
(lisi,57)

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值