SparkRDD算子实例--统计每一个省份广告被点击次数的TOP3

数据源

时间戳 省份 城市 用户 广告
1516609143867 6 7 64 16
1516609143869 9 4 75 18
1516609143869 1 7 87 12
...

需求

统计每一个省份广告被点击次数的TOP3

代码

package com.day1

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

//需求:统计出每一个省份广告被点击次数的TOP3
object oper {
    def main(args: Array[String]): Unit = {

        //1.初始化spark配置信息并建立与spark的连接
        val sparkConf = new SparkConf().setMaster("local[*]").setAppName("Practice")
        val sc = new SparkContext(sparkConf)

        //2.读取数据生成RDD:TS,Province,City,User,AD
        val line = sc.textFile("E:\\学习\\资料\\agent.log")

        //3.按照最小粒度聚合:((Province,AD),1)
        val provinceAdToOne = line.map { x =>
            val fields: Array[String] = x.split(" ")
            ((fields(1), fields(4)), 1)
        }

        //4.计算每个省中每个广告被点击的总数:((Province,AD),sum)
        val provinceAdToSum = provinceAdToOne.reduceByKey(_ + _)

        //5.将省份作为key,广告加点击数为value:(Province,(AD,sum))
        val provinceToAdSum = provinceAdToSum.map(x => (x._1._1, (x._1._2, x._2)))

        //6.将同一个省份的所有广告进行聚合(Province,List((AD1,sum1),(AD2,sum2)...))
        val provinceGroup = provinceToAdSum.groupByKey()

        //7.对同一个省份所有广告的集合进行排序并取前3条,排序规则为广告点击总数
        val provinceAdTop3 = provinceGroup.mapValues { x =>
            x.toList.sortWith((x, y) => x._2 > y._2).take(3)
        }

        //8.将数据拉取到Driver端并打印
        provinceAdTop3.collect().foreach(println)

        //9.关闭与spark的连接
        sc.stop()
    }

}

输出:
(4,List((12,25), (2,22), (16,22)))
(8,List((2,27), (20,23), (11,22)))
(6,List((16,23), (24,21), (22,20)))
(0,List((2,29), (24,25), (26,24)))
(2,List((6,24), (21,23), (29,20)))
(7,List((16,26), (26,25), (1,23)))
(5,List((14,26), (21,21), (12,21)))
(9,List((1,31), (28,21), (0,20)))
(3,List((14,28), (28,27), (22,25)))
(1,List((3,25), (6,23), (5,22)))

示意图

在这里插入图片描述

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

寒 暄

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值