SparkSQL开窗函数 row_number()

最新推荐文章于 2024-08-30 09:40:57 发布

weixin_30897079

最新推荐文章于 2024-08-30 09:40:57 发布

阅读量1.3k

点赞数

文章标签：大数据 java json

原文链接：http://www.cnblogs.com/suixingc/p/sparksql-kai-chuang-han-shu---rownumber.html

版权

本文介绍了SparkSQL中的row_number()开窗函数，用于为每个分组内的数据按排序顺序分配行号。通过partition by进行分组，order by进行组内排序，从而实现行号的标记。详细语法及示例解释了如何在实际查询中应用此函数。

摘要由CSDN通过智能技术生成

开始编写我们的统计逻辑，使用row_number()函数
先说明一下，row_number()开窗函数的作用
其实就是给每个分组的数据，按照其排序顺序，打上一个分组内行号
比如说，有一个分组20151001，里面有三条数据，1122，1121，1124
那么对这个分组的每一行使用row_number()开窗函数以后，三行依次会获得一个组内的行号
行号从1开始递增，比如1122，1 1121，2 1124，3

row_number()开窗函数的语法说明
首先可以在select查询时，使用row_number()函数
其次，row_number()函数后面先跟上over关键字
然后括号中是partition by也就是根据哪个字段进行分组
其次是可以用order by进行组内排序然后row_number()就可以给每个组内的行，一个组内行号

RowNumberWindowFunc.scala

package com.UDF.row_numberFUNC

import org.apache.spark.sql.{SaveMode, SparkSession}

object RowNumberWindowFunc extends App {

  val spark = SparkSession
    .builder()
    .appName(