flink sql 知其所以然（七）：不会连最适合 flink sql 的 ETL 和 group agg 场景都没见过吧？

最新推荐文章于 2023-10-17 13:57:16 发布

大数据羊说

最新推荐文章于 2023-10-17 13:57:16 发布

阅读量867

点赞数 1

分类专栏： Apache Flink 实战技巧实时计算文章标签： sql flink big data

本文链接：https://blog.csdn.net/qq_34608620/article/details/120123607

版权

本文介绍了Flink SQL在实时数仓中的应用，适合简单ETL和聚合场景，如dwd清洗和dws聚合。文章讨论了如何观察Flink SQL任务的运行状态和执行逻辑，并通过实例展示了ETL、去重和聚合场景的使用，帮助读者理解Flink SQL的运行机制和应用场景。

摘要由CSDN通过智能技术生成

感谢您的小爱心（关注 + 点赞 + 再看），对博主的肯定，会督促博主持续的输出更多的优质实战内容！！！

1.序篇-本文结构

前面的章节铺垫了那么多，终于在本节走入一条 query 了。

针对 datastream api 大家都比较熟悉了，还是那句话，在 datastream 中，你写的代码逻辑是什么样的，它最终的执行方式就是什么样的。

但是对于 flink sql 的执行过程，大家还是不熟悉的。

因此本文通过以下章节使用 ETL，group agg（sum，count等）简单聚合类 query 带大家走进一条 flink sql query 逻辑的世界。帮大家至少能够熟悉在 flink sql 程序运行时知道 flink 程序在干什么。

背景篇-大家不了解 flink sql 什么？
目标篇-本文能帮助大家了解 flink sql 什么？
实战篇-简单的 query 案例和运行原理
总结与展望篇

先说说结论：

场景问题：flink sql 很适合简单 ETL，以及基本全部场景下的聚合类指标。
语法问题：flink sql 语法其实是和其他 sql 语法基本一致的。基本不会产生语法问题阻碍使用 flink sql。
运行问题：查看 flink sql 任务时的一些技巧：

去 flink webui 看看这个任务目前在做什么。包括算子名称都会给直接展示给我们目前哪个算子在干啥事情，在处理啥逻辑。
如果你想知道你的 flink 任务执行了什么代码，就去看看 sql 最后转换成的 transformation 里面具体要执行哪些操作。flink sql 生成的代码也在里面。
如果你不确定线上任务执行原理，可以直接在本地尝试运行。

2.背景篇-大家不了解 flink sql 什么？

首先从大家用 flink sql 的一个初衷和状态出发，想一下大家在开始上手 flink sql 时，是什么样的一个想法？

博主大概整理了下，在初步上手 flink sql，一般从入手到踩坑整个过程中，一般都会有以下几种问题或者想法：

场景问题：首先 flink sql 是用来提效的，那相比 datastream，哪些场景很适合 flink sql 去做？
语法问题：我写 sql 时 flink sql 语法会不会和其他 sql 语法有不同？
运行问题：我写了一条 sql，运行起来了，但是对我来说是黑盒的，我怎么知道这个任务正在执行什么操作？有没有什么好办法帮我去理解 flink sql 的运行机制？
理解误区：在理解 flink sql 的运算机制上有哪些误区？
坑：flink sql 一般都有啥坑？提前了解帮我们避免踩坑。

就是上面这些想法，会让很多想在公司内部引入 flink sql 的同学望而却步。

3.目标篇-本文能帮助大家了解 flink sql 什么？

来看看本文的目标：

场景问题：帮大家理解哪些场景是非常适合 flink sql 的
语法问题：帮大家简单熟悉 flink sql 的语法
运行问题：使用一条简单的 query sql 看看其运行起来的过程，其运行的机制
理解误区：运算机制上的常见误区
坑：看看 sql 一般会有啥坑

由于一篇文章不能覆盖所有概念，本文主要介绍一些最简单的 ETL，聚合场景，主要集中于前三点。

后两点在后续系列文章中会按照场景详细展开。

4.实战篇-简单的 query 案例和运行原理

4.1.场景问题：有哪些场景适合 flink sql？

不装了，我坦白了，flink sql 其实很适合干的活就是 dwd 清洗，dws 聚合。

此处主要针对实时数仓的场景来说。flink sql 能干 dwd 清洗，dws 聚合，基本上实时数仓的大多数场景都能给覆盖了。

flink sql 牛逼！！！

但是！！！

经过博主使用 flink sql 经验来看，并不是所有的 dwd，dws 聚合场景都适合 flink sql（截止发文阶段来说）！！！

其实这些目前不适合 flink sql 的场景总结下来就是在处理上比 datastream 还是会有一定的损失。

先总结下使用场景：

1. dwd：简单的清洗、复杂的清洗、维度的扩充、各种 udf 的使用

2. dws：各类聚合

然后分适合的场景和不适合的场景来说，因为只这一篇不能覆盖所有的内容，所以本文此处先大致给个结论，之后会结合具体的场景详细描述。

适合的场景：

简单的 dwd 清洗场景
全场景的 dws 聚合场景

目前不太适合的场景：

复杂的 dwd 清洗场景：举例比如使用了很多 udf 清洗，尤其是使用很多的 json 类解析清洗
关联维度场景：举例比如 datastream 中经常会有攒一批数据批量访问外部接口的场景，flink sql 目前对于这种场景虽然有 localcache、异步访问能力，但是依然还是一条一条访问外部缓存，这样相比批量访问还是会有性能差距。

4.2.语法\运行问题

其实总结来说，对于接触过 sql 的同学来说，除了 flink sql 中窗口聚合类的写法来说，其他的 sql 语法都是相同的，很容易理解。

本节会针对具体的案例进行详细介绍。

4.2.1.ETL

最简单的 ETL 类型任务。

SELECT select_list FROM table_expression [ WHERE boolean_expression ]

1.场景：简单的 dwd 清洗过滤场景

源码公众号后台回复不会连最适合 flink sql 的 ETL 和 group agg 场景都没见过吧获取。

数据源表：

CREATE TABLE source_table (
    order_number BIGINT,
    price        DECIMAL(32,2)
) WITH (
  'connector' = 'datagen',
  'rows-per-second' = '10',
  'fields.order_number.min' = '10',
  'fields.order_number.max' = '11'
)

数据汇表：

CREATE TABLE sink_table (
    order_number BIGINT,
    price        DECIMAL(32,2)
) WITH (
  'connector' = 'print&

最低0.47元/天解锁文章

大数据羊说

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
flink sql 知其所以然（七）：不会连最适合 flink sql 的 ETL 和 group agg 场景都没见过吧？

感谢您的小爱心（关注  +  点赞 + 再看），对博主的肯定，会督促博主持续的输出更多的优质实战内容！！！1.序篇-本文结构前面的章节铺垫了那么多，终于在本节走入一条 query 了。针对 datastream api 大家都比较熟悉了，还是那句话，在 datastream 中，你写的代码逻辑是什么样的，它最终的执行方式就是什么样的。但是对于 flink sql 的执行过程，大家还是不熟悉的。因此本文通过以下章节使用 ETL，group agg（sum，count等）简单聚合类 quer
复制链接

扫一扫

专栏目录