sparkSQL 统计TopN

原始数据如下:
在这里插入图片描述
需求:按天统计uid。
main方法:

object TopNStatJob {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder().appName("TopNStatJob")
      .config("spark.sql.sources.partitionColumnTypeInference.enabled","false")
      .master("local[2]").getOrCreate()
    val accessDF = spark.read.format("parquet").load("file:///E:/test/clean")
//    accessDF.printSchema()
    accessDF.show(false)
    // 最受欢迎的TopN netType
    netTypeAccessTopNStat(spark, accessDF)

    spark.stop
  }
}

方式一:使用DataFrame

  /**
   * 最受欢迎的TopN netType
   * @param spark
   * @param accessDF
   */
  def netTypeAccessTopNStat(spark: SparkSession, accessDF: DataFrame): Unit = {
	val wifiAccessTopNDF = accessDF.filter(accessDF.col("day") === "20190702" && accessDF.col("netType") === "wifi")
	.groupBy("day", "uid").agg(count("uid").as("times")).orderBy(desc("times"))
	wifiAccessTopNDF.show(false)
  }

方式二:使用sparkSQL

  def netTypeAccessTopNStat(spark: SparkSession, accessDF: DataFrame): Unit = {
    accessDF.createOrReplaceTempView("access_logs")
    val wifiAccessTopNDF = spark.sql("select day,uid,count(1) as times from access_logs where day='20190702' and netType='wifi' group by day,uid order by times desc")
    wifiAccessTopNDF.show(false)
  }

两种方式都可以实现TopN,控制台打印结果如下:
在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值