Spark KV类型算子案例详解二

6.
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object _06TestAggregateByKey_exercise {
    def main(args: Array[String]): Unit = {
        val conf = new SparkConf().setAppName("test").setMaster("local[*]")
        val sc = new SparkContext(conf)
        /**
         * 使用aggreateByKey计算每个key出现的次数,与value之和   从而可以计算平均值
         */
        val rdd1: RDD[(String,Int)] = sc.makeRDD(List(("a",1), ("a",2),("b",3), ("a",2), ("b",4),("b",5)), 2)

        /**
         * 从需求分析中,可知,返回的数据应该是次数与value和,那么能存这样的数据,元组是比较合适的
         */
        val result: RDD[(String, (Int, Int))] = rdd1.aggregateByKey((0, 0))(
            (x, y) => (x._1 + 1, x._2 + y),
            (x, y) => (x._1 + y._1, x._2 + y._2)
        )
        //继续求平均值
        val result1: RDD[(String, Double)] = result.map(x => {
            var t = x._2
            var avg = t._2 / t._1.toDouble
            (x._1, avg)
        })


        result1.collect().foreach(println)
        // (b,4.0)
        //(a,1.6666666666666667)
    }
}


7.
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.rdd.RDD

//作用: 将kv对形式的RDD的v映射成别的类型
object _07MapValueDemo {
    def main(args: Array[String]): Unit = {
        val conf = new SparkConf().

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值