Spark Core的RDD算子案例实操

Spark Core的RDD算子案例实操

  1. 数据结构:

    时间戳,省份,城市,用户,广告。中间使用空格分隔

    1516609143867 6 7 64 16
    1516609143869 9 4 75 18
    1516609143869 1 7 87 12

  2. 需求:统计出每个省=广告被点击次数的TOP3

  3. 实现过程

    package com.ityouxin.spark
    import org.apache.spark.rdd.RDD
    import org.apache.spark.{SparkConf, SparkContext}
    //需求:统计出每一个省份广告被点击次数的 TOP3
    object AdClick{
    def main(args: Array[String]): Unit = {
    	//1.初始化 spark 配置信息并建立与 spark 的连接
    	val sparkConf = new SparkConf().setMaster("local[*]").setAppName("AdClick")
    	val sc = new SparkContext(sparkConf)
    	//2.读取数据生成 RDD: TS, Province, City, User, AD
    	val line = sc.textFile("agent.log")
    	//3.按照最小粒度聚合: ((Province,AD),1)
    	val provinceAdToOne = line.map { x =>
    	val fields: Array[String] = x.split(" ")
    	((fields(1), fields(4)), 1)
    }
    //4.计算每个省中每个广告被点击的总数: ((Province,AD),sum)
    val provinceAdToSum = provinceAdToOne.reduceByKey(_ + _)
    //5.将省份作为 key,广告加点击数为 value: (Province,(AD,sum))
    val provinceToAdSum = provinceAdToSum.map(x => (x._1._1, (x._1._2, x._2)))
    //6.将同一个省份的所有广告进行聚合(Province,List((AD1,sum1),(AD2,sum2)...))
    val provinceGroup = provinceToAdSum.groupByKey()
    //7.对同一个省份所有广告的集合进行排序并取前 3 条,排序规则为广告点击总数
    val provinceAdTop3 = provinceGroup.mapValues { x =>
    	x.toList.sortWith((x, y) => x._2 > y._2).take(3)
    }
    //8.将数据拉取到 Driver 端并打印
    	provinceAdTop3.collect().foreach(println)
    //9.关闭与 spark 的连接
    	sc.stop()
    	}
    }
    
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值