Spark 算子案例实操

最新推荐文章于 2023-02-11 11:03:20 发布

FreedomZzzzz

最新推荐文章于 2023-02-11 11:03:20 发布

阅读量754

点赞数

分类专栏： Spark 文章标签：案例实操

本文链接：https://blog.csdn.net/freedomzzzzz/article/details/103097110

版权

Spark 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1. 数据结构：

时间戳，省份，城市，用户，广告，中间字段使用空格分割

样本如下：

1516609240717 3 5 95 9
1516609240717 1 1 79 7
1516609240717 7 7 96 9
1516609240717 1 4 98 4
1516609240717 4 7 45 24

2. 需求：

统计出每一个省份广告被点击次数的TOP3

3.案例分析：

4. 实现过程：

package com.zpark.bigdata.spark_Practice


import org.apache.spark.{SparkConf, SparkContext}

//需求：统计出每一个省份广告被点击次数的TOP3

object spark_Practice_01{

  def main(args: Array[String]): Unit = {

    //1.初始化spark配置信息并建立与spark的连接
    val sparkConf = new SparkConf().setMaster("local[*]").setAppName("Practice")
    val sc = new SparkContext(sparkConf)

    //2.读取数据生成RDD：TS，Province，City，User，AD
    val line = sc.textFile("F:\\IdeaProjects\\spark\\input\\agent.txt")

    //3.按照最小粒度聚合：((Province,AD),1)
    val provinceAdToOne = line.map { x =>
      val fields: Array[String] = x.split(" ")
      ((fields(1), fields(4)), 1)
    }

    //4.计算每个省中每个广告被点击的总数：((Province,AD),sum)
    val provinceAdToSum = provinceAdToOne.reduceByKey(_ + _)

    //5.将省份作为key，广告加点击数为value：(Province,(AD,sum))
    val provinceToAdSum = provinceAdToSum.map(x => (x._1._1, (x._1._2, x._2)))

    //6.将同一个省份的所有广告进行聚合(Province,List((AD1,sum1),(AD2,sum2)...))
    val provinceGroup = provinceToAdSum.groupByKey()

    //7.对同一个省份所有广告的集合进行排序并取前3条，排序规则为广告点击总数
    val provinceAdTop3 = provinceGroup.mapValues { x =>
      x.toList.sortWith((x, y) => x._2 > y._2).take(3)
    }

    //8.将数据拉取到Driver端并打印
    provinceAdTop3.collect().foreach(println)

    //9.关闭与spark的连接
    sc.stop()
  }
}

FreedomZzzzz

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Spark 算子案例实操

1. 数据结构：时间戳，省份，城市，用户，广告，中间字段使用空格分割样本如下：1516609240717 3 5 95 91516609240717 1 1 79 71516609240717 7 7 96 91516609240717 1 4 98 41516609240717 4 7 45 242. 需求：统计出每一个省份广告被点击次数的TOP33.案例分析：...
复制链接

扫一扫