spark2.1 Row_number，Window使用

最新推荐文章于 2022-11-16 19:12:53 发布

小白鸽

最新推荐文章于 2022-11-16 19:12:53 发布

阅读量1.1k

点赞数

分类专栏： Spark 文章标签： spark Window row_number

本文链接：https://blog.csdn.net/baifanwudi/article/details/78559494

版权

Spark 专栏收录该内容

28 篇文章 4 订阅

订阅专栏

有这种情况,一个项目下的一个设备多次上报检测成功记录,但我只要最早上报记录

代码如下:

package com.spark

import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.expressions.Window
import org.apache.spark.sql.functions._

object LastestTime {

  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder.appName(s"${this.getClass.getSimpleName}").master("local[4]").getOrCreate();

    import spark.implicits._
    val s = spark.read.json("/user/kafka/flume/ota_check/pt=2017-11-17")
    s.printSchema();

    val w = Window.partitionBy($"product_id", $"device_id", $"check_status").orderBy($"create_time".asc_nulls_last);

    val filterResult = s.withColumn("rank", row_number.over(w)).where($"rank" === 1).drop("rank");

    filterResult.show();
  }
}

主要按项目号,设备号,上报状态分组,且看时间升序排序,选取第一条记录.
它是先新建rank一列,最后再删除这列.

附：Java版代码

import org.apache.spark.sql.expressions.Window;
import org.apache.spark.sql.expressions.WindowSpec;
....

WindowSpec w= Window.partitionBy("product_id","device_id","check_status").orderBy(col("create_time").asc_nulls_last());
Dataset<Row> userLastestOrder=tableData.withColumn("rank",row_number().over(w)).where(col("rank").equalTo(1)).drop("rank");