bigdata_11_Flink
文章平均质量分 73
实时计算框架Flink
最佳第六六六人
一只威武的大数据架构攻城狮
展开
-
Flink状态后端和CheckPoint机制
6.8.5 状态后端什么是状态后端?每传入一条数据,有状态的算子任务都会读取和更新状态。状态的存储、访问以及维护,由一个可插入的组件决定,这个组件就是状态后端。状态后端的作用?本地的状态管理将检查点(checkpoint)状态写入远程存储(1)状态后端分类①MemoryStateBackend内存级别的状态后端本地状态存储在TaskManager的内存中checkpoint保存在JobManager的内存中**特点:**速度快、延迟低、不稳定**使用场景:**1本地测原创 2021-03-18 00:52:23 · 1840 阅读 · 0 评论 -
Flink状态和键控流
6.8 Flink状态编程有状态的计算是流处理框架要实现的重要功能,因为稍复杂的流处理场景都需要记录状态,然后在新流入数据的基础上不断更新状态。6.8.1 Flink中的状态分类Flink包括两种基本类型的状态Managed State和Raw StateManaged StateRaw State状态管理方式Flink Runtime托管, 自动存储, 自动恢复, 自动伸缩用户自己管理状态数据结构Flink提供多种常用数据结构, 例如:ListState,原创 2021-03-18 00:51:23 · 519 阅读 · 0 评论 -
Flink定时器
6.7 定时器6.7.1 定时器API以keyBy()之后的键控流的定时器为例://TODO 定时器 API//1. 注册定时器ctx.timerService().registerProcessingTimeTimer();ctx.timerService().registerEventTimeTimer();//2. 删除定时器ctx.timerService().deleteProcessingTimeTimer();ctx.timerService().deleteEventTi原创 2021-03-18 00:48:52 · 879 阅读 · 0 评论 -
Flink IntervalJoin
(2)Interval Join ★public class Flink22_Process_IntervalJoin { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); env.setParallelism(1);原创 2021-03-18 00:48:03 · 201 阅读 · 0 评论 -
Flink侧输出流机制
6.5 侧输出流(sideOutput)6.5.1 功能1:处理允许迟到后迟到的数据允许迟到数据,窗口也会真正的关闭,如果允许迟到后,还是有迟到的数据怎么办?Flink提供一种侧输出流的机制来处理关窗之后到达的数据。public class Flink19_Watermark_SideOutput { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env原创 2021-03-18 00:46:18 · 1116 阅读 · 0 评论 -
Flink窗口迟到机制
6.4 窗口允许迟到的数据(1)迟到数据概念迟到数据:时间戳 小于 watermark的数据(2)窗口允许迟到1) 当 wm >= 窗口最大时间戳时, 会 触发,但是不会关窗2) 当 窗口最大时间戳 + 允许迟到时间 >= wm >= 窗口最大时间戳, 每来一条迟到数据,都会进入窗口,触发3) 当 wm >= 窗口最大时间戳 + 允许迟到时间 , 会关窗, 迟到数据不再进入窗口,不会再触发(3)代码无序流watersensor、乱序程度=3、滚动事件窗口大小10原创 2021-03-18 00:45:29 · 468 阅读 · 0 评论 -
Flink时间语义与WaterMark详解
6.3 时间语义&WaterMark6.3.1 Flink中的时间语义Flink流式操作中,涉及到不同的时间概念。(1)事件时间 event time时间真实发生的时间。Flink1.12默认事件时间。比如:log中,start-log中的ts字段,这个时间就是事件发生的事件。xxx.window(TumblingEventTimeWindows)(2)处理时间 process timeFlink处理start-log中这条数据时的设备时间。Flink1.12之前默认处理原创 2021-03-18 00:44:02 · 1139 阅读 · 0 评论 -
Flink窗口机制详解
Flink的窗口机制6.1.1 窗口概述窗口window是用来处理无限数据集的有限块。窗口就是把流切成了有限大小的多个存储桶bucket流处理应用中,数据是连续不断的,因此我们不能等所有的数据来了才开始处理,当然也可以来一条数据,处理一条数据,但是有时候我们需要做一些聚合类的处理,例如:在过去的一分钟内有多少用户点击了网页。这种情况下,就适合定义一个窗口,用来收集最近一分钟内的数据,并对这个窗口的数据进行计算。6.1.2 窗口分类基于时间的窗口(时间驱动)基于元素的窗口(数据驱动)ke原创 2021-03-18 00:42:37 · 3364 阅读 · 0 评论 -
Flink流处理核心编程
Flink流处理核心编程5.1 Environment//批执行环境ExecutionEnvironment benv = ExecutionEnvironment.getExecutionEnvironment();//流执行环境StreamExecutionEnvironment senv = StreamExecutionEnvironment.getExecutionEnvironment();//1.12版本,可以在流式的执行环境中,指定为 批处理模式 => 为了更像 流批原创 2021-03-18 00:40:09 · 732 阅读 · 0 评论 -
Flink 基础核心概念介绍
Flink 基础核心概念(1)客户端客户端并不是运行和程序执行的一部分,而是准备和发送dataflow到 JobManager,然后客户端可以断开与JobManager的连接(detached mode),也可以继续保持与JobManager的连接(attached mode)客户端作为触发执行的java或者scala代码的一部分运行, 也可以在命令行运行:bin/flink run …Client解析代码生成逻辑流图(StreamGraph)将StreamGraph优化成作业图(原创 2021-02-26 09:50:34 · 559 阅读 · 0 评论 -
Flink框架基础原理
1 Flink简介Flink是分布式、高性能、随时可用、准确的流处理框架。Flink是一个一个框架、分布式处理引擎,用于对无界和有界数据流进行有状态计算。1.1 Flink特点①事件驱动型(Event-driven)事件驱动型应用是一类具有状态的应用,它从一个或多个事件流提取数据,并根据到来的事件触发计算、状态更新、或其他外部动作。比较典型的就是以Kafka为代表的消息队列就是事件驱动型应用。(Flink的计算也是事件驱动型)。1.2 流处理VS批处理批处理和流处理是根据处理方式划分的:批处原创 2021-02-26 09:48:21 · 1031 阅读 · 0 评论