sparkSQL 统计TopN

最新推荐文章于 2022-07-09 16:10:37 发布

vincent_hahaha

最新推荐文章于 2022-07-09 16:10:37 发布

阅读量780

点赞数

分类专栏： spark

本文链接：https://blog.csdn.net/vincent_duan/article/details/105246179

版权

spark 专栏收录该内容

33 篇文章 1 订阅

订阅专栏

原始数据如下：
在这里插入图片描述
需求：按天统计uid。
main方法：

object TopNStatJob {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder().appName("TopNStatJob")
      .config("spark.sql.sources.partitionColumnTypeInference.enabled","false")
      .master("local[2]").getOrCreate()
    val accessDF = spark.read.format("parquet").load("file:///E:/test/clean")
//    accessDF.printSchema()
    accessDF.show(false)
    // 最受欢迎的TopN netType
    netTypeAccessTopNStat(spark, accessDF)

    spark.stop
  }
}

方式一:使用DataFrame

  /**
   * 最受欢迎的TopN netType
   * @param spark
   * @param accessDF
   */
  def netTypeAccessTopNStat(spark: SparkSession, accessDF: DataFrame): Unit = {
	val wifiAccessTopNDF = accessDF.filter(accessDF.col("day") === "20190702" && accessDF.col("netType") === "wifi")
	.groupBy("day", "uid").agg(count("uid").as("times")).orderBy(desc("times"))
	wifiAccessTopNDF.show(false)
  }

方式二：使用sparkSQL

  def netTypeAccessTopNStat(spark: SparkSession, accessDF: DataFrame): Unit = {
    accessDF.createOrReplaceTempView("access_logs")
    val wifiAccessTopNDF = spark.sql("select day,uid,count(1) as times from access_logs where day='20190702' and netType='wifi' group by day,uid order by times desc")
    wifiAccessTopNDF.show(false)
  }

两种方式都可以实现TopN，控制台打印结果如下：
在这里插入图片描述

vincent_hahaha

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
sparkSQL 统计TopN

原始数据如下：需求：按天统计uid。main方法：object TopNStatJob { def main(args: Array[String]): Unit = { val spark = SparkSession.builder().appName("TopNStatJob") .config("spark.sql.sources.partitionColu...
复制链接

扫一扫