flink
文章平均质量分 80
bone_ds
关于明天的事,后天就知道了.
展开
-
FlinkSql知识点总结
flinksql定义?Flink core架构上的sql语义处理结构化数据的上层库工作流程?sql得有表啊,数据源绑定schema后注册为catalog中的表->用户sql表达计算逻辑->tableplanner通过apache calcite解析sql并绑定元数据生成语法树,变成逻辑执行计划(树)并优化->逻辑计划+算子具体实现得到物理执行计划->代码生成得到算子树->转为作业图给到集群执行两个优化器?原创 2023-02-13 23:16:01 · 950 阅读 · 1 评论 -
Flink1.14知识点总结
基于文件的source算子?readFile读取文件数据,传入文本解析格式、路径、处理模式,处理模式为PROCESS_ONCE时文件读一次就推出了,PROCESS_CONTINUOUSLY时会一直监听文件,一旦文件内容变化则整体重读因此会造成数据重复读取,而readTextFile算子底层为传参固定的readFile如何理解Kafka Source细节?原创 2023-02-04 12:49:03 · 795 阅读 · 0 评论 -
Flink的流批统一
Flink依赖,1.13版本在项目的 pom 文件中,增加标签设置属性,然后增加标签引 入需要的依赖。我们需要添加的依赖最重要的就是 Flink 的相关组件,包括 flink-java、 flink-streaming-java,以及 flink-clients(客户端,也可以省略)。另外,为了方便查看运行日志, 我们引入 slf4j 和 log4j 进行日志管理。这里做一点解释: 在属性中,我们定义了,这指代的是所依赖的 Scala 版本。这有一点 奇怪:Flink 底层是 Java,而且我们也只用原创 2022-03-17 00:04:52 · 2984 阅读 · 0 评论 -
Flink之乱序处理,时间语义,WaterMark,允许迟到数据,侧输出流
一.理解Flink的乱序问题理解Flink的乱序问题,的先理解Flink的时间语义.Flink有3中时间语义: Event Time:事件创建的时间 Ingestion Time:数据进入Flink的时间,后续版本好像这个时间语义.也就不讨论了. Processing Time:执行操作算子的本地系统时间,与机器相关.(Event Time的使用,必须配合WaterMark) Flink的时间语义的使用,需要搭配window机制.没有window开窗也就不存在乱序问题.原创 2022-02-19 18:22:35 · 3124 阅读 · 0 评论 -
Flink的window(窗口)
Flink的window(窗口)1.Flink窗口的概念窗口(window)就是将无限流切割为有限流的一种方式,它会将流数据分发到有限大小的桶(bucket)中进行分析2.Flink的窗口分类其实, 在用window前首先需要确认应该是在keyBy后的流上用, 还是在没有keyBy的流上使用.2.1Non-Keyed Windows在non-keyed stream上使用窗口,只能调用windowAll()方法,返回AllWindowedStream流.Flink会把所有数据放到同一个窗口中原创 2022-02-19 02:37:08 · 2738 阅读 · 0 评论 -
Flink的四大组件、yarn per-job模式提交流程、Slot、并行度
1.Flink四大组件1.1 JobManager 作业管理器控制一个应用程序执行的主进程,也就是说,每个应用程序都会被一个不同的JobManager 所控制执行。JobManager 会先接收到要执行的应用程序,这个应用程序会包括:作业图(JobGraph)、逻辑数据流图(logical dataflow graph)和打包了所有的类、库和其它资源的JAR包。JobManager 会把JobGraph转换成一个物理层面的数据流图,这个图被叫做“执行图”(ExecutionGraph),包含了所有原创 2022-02-18 11:06:38 · 4385 阅读 · 0 评论