FlinkSql系列4之OVER聚合

最新推荐文章于 2024-03-11 16:51:20 发布

瘦瘦的肥羊

最新推荐文章于 2024-03-11 16:51:20 发布

阅读量1.7k

点赞数

分类专栏： FLINKSQL学习之路文章标签： java 大数据 flink

本文链接：https://blog.csdn.net/feiyangailing/article/details/123837454

版权

FLINKSQL学习之路专栏收录该内容

8 篇文章 11 订阅

订阅专栏

系列文章目录

前言

本节主要记录学习flinksql中的OVER聚合的使用，我们知道，对于GROUP BY来说，我们只能保留我们分组的字段，其他的字段是无法保留的，而对于OVER聚合来说我们可以实现保留全部的字段，不过在实际应用中，这个并不常用。

一、Over聚合实际测试

1.时间区间聚合

创建源表

CREATE TABLE source_table3(
--订单id
`order_id` BIGINT,
--产品
`product` BIGINT,
--金额
`amount` BIGINT,
--支付时间
`order_time` as CAST(CURRENT_TIMESTAMP AS TIMESTAMP(3)),`在这里插入代码片`
--WATERMARK
WATERMARK FOR order_time AS order_time - INTERVAL '2' SECOND
) WITH(
'connector' = 'datagen',
 'rows-per-second' = '1',
 'fields.order_id.min' = '1',
 'fields.order_id.max' = '2',
 'fields.amount.min' = '1',
 'fields.amount.max' = '10',
 'fields.product.min' = '1',
 'fields.product.max' = '2'
)

创建目标表

CREATE TABLE sink_table5(
--产品
`product` BIGINT,
--金额
`amount` BIGINT,
--支付时间
`order_time` TIMESTAMP(3)
--1分钟时间聚合总数
`one_minute_sum` BIGINT
) WITH(
'connector'='print'
)

执行sql 1

INSERT INTO sink_table5
SELECT
product,
amount,
order_time,
SUM(amount) OVER(
PARTITION BY product
ORDER BY order_time
-- 标识统计范围是1个 product 的最近 1 分钟的数据
RANGE BETWEEN INTERVAL '1' MINUTE PRECEDING AND CURRENT ROW
) as one_minute_sum
FROM source_table3;

在这里插入图片描述
执行sql2

INSERT INTO sink_table5
SELECT
order_id,
product,
amount,
order_time,
SUM(amount) OVER(
PARTITION BY product
ORDER BY order_time
-- 标识统计范围是1个 product 的最近 1 分钟的数据
RANGE BETWEEN INTERVAL '1' MINUTE PRECEDING AND CURRENT ROW
) as one_minute_sum
FROM source_table3;

在这里插入图片描述
可以看到我们可以按照窗口进行聚合，并且拿到了我们想要的字段！

2.行数聚合

源表和目标表和上文一样

执行sql

INSERT INTO sink_table5
SELECT
order_id,
product,
amount,order_time,
SUM(amount) OVER(
PARTITION BY product
ORDER BY order_time
--标识统计前五行的数据，因为是流，肯定只能统计前五行
ROWS BETWEEN 5 PRECEDING AND CURRENT ROW
) as one_minute_sum
FROM source_table3;

在这里插入图片描述
要注意的是这里我们选取前面几行，因为是实时数据，相当于不可能选后面的多少行的。

总结

本次对于OVER聚合函数进行总结
大概语法
SELECT
AGGREGATION(column) OVER(
PARTITION BY column
ORDER BY column
range选择（一段窗口时间，或者选取前几行）
)

ORDER BY：必须是时间戳列（事件时间、处理时间）
PARTITION BY：标识了聚合窗⼝的聚合粒度，如上述案例是按照 product 进⾏聚合
range_definition：这个标识聚合窗⼝的聚合数据范围，在 Flink 中有两种指定数据范围的⽅式。第⼀种为按照⾏数聚合，第⼆种为按照时间区间聚合

瘦瘦的肥羊

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
FlinkSql系列4之OVER聚合

系列文章目录前言本节主要记录学习flinksql中的OVER聚合的使用，我们知道，对于GROUP BY来说，我们只能保留我们分组的字段，其他的字段是无法保留的，而对于OVER聚合来说我们可以实现保留全部的字段，不过在实际应用中，这个并不常用。一、Over聚合实际测试1.时间区间聚合创建源表CREATE TABLE source_table3(--订单id`order_id` BIGINT,--产品`product` BIGINT,--金额`amount` BIGINT,--支付时
复制链接

扫一扫

专栏目录