- 博客(9)
- 资源 (1)
- 收藏
- 关注
原创 flink生成Watermark之WatermarkStrategy
flink1.11版本后建议用WatermarkStrategy(Watermark生成策略)生成Watermark
2021-11-24 21:43:42 9083
原创 flink生成Watermark之assignTimestampsAndWatermarks
在DataStreamSource对象上调用assignTimestampsAndWatermarks方法,自定义Timestamp提取规则和Watermark生成规则。文章目录基于AssignerWithPeriodicWatermarks接口基于AssignerWithPeriodicWatermarks接口AssignerWithPeriodicWatermarks接口扩展自TimestampAssigner类,其中extractTimestamp方法定义抽取Timestamp,getCurre
2021-11-22 22:33:02 10071
原创 flink生成Watermark之SourceFunction
可以通过addSource方法来自定义SourceFunction,并可指定Timestamp和Watermark生成规则。
2021-11-22 16:19:16 1339
原创 flink时间戳和水位线简介
使用EventTime时间语义时,需指定时间戳(Timestamp)提取规则以及水位线(Watermark)生成策略,才能正确进行窗口计算。
2021-11-22 14:33:40 935
原创 Flink主从架构、任务和算子链
图中客户端Client不是Flink运行时框架的一部分,而是用来准备和提交数据流作业的。由图可知,当flink代码编译后,一般会经过优化处理,当flink程序通过客户端提交任务Job到JobManager主节点后,JobManager会用任务调度器进行调度,并分配到从节点TaskManager上执行。Client、JobManager、TaskManager间通过Actor System实现通信,Actor是一种并发模型,其中基于Actor模型系统中的线程(或进程)通过消息传递的方式进行通信,而这些线.
2021-11-17 20:22:05 585
原创 flink常见概念
Flink Application:一种java应用程序,主要通过main方法来提交一个或多个Flink Job.Flink Cluster:Flink集群是由至少一个Flink JobManager和一个或多个TaskManager进程组成的分布式系统。事件(Event):可以当做流处理或批处理应用程序当中的输入或输出,事件在flink中是一种特殊类型的记录(Record)。记录(Record):数据集或数据流的组成元素。Operator和Function接收record作为输入,并将record.
2021-11-17 15:00:14 462
原创 flink窗口分类
文章目录Dataflow模型数据流图流处理Dataflow模型Dataflow模型提供了一种统一流处理和批处理的系统框架。Dataflow模型对于无序流数据,提供了一套基于事件时间、水位线和延迟处理的机制,从而实现窗口聚合计算的能力,以实现流数据计算的正确性、高吞吐和延迟3者的平衡。数据流图数据流图有逻辑数据流图(节点表示算子)和物理数据流图(节点表示任务)。数据分配策略:转发分配策略:将流数据从一个任务节点直接分配到下一个任务节点。基于key分配策略:对数据分区,保证同一key的数据由同
2021-11-17 13:12:31 739
原创 flink环境搭建
Apache Flink是一个开源大数据框架和分布式处理引擎,用于在无边界(有定义流的开始,但没有定义流的结束)和有边界(有定义流的开始,也有定义流的结束)数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行,并能以内存速度和任意规模进行计算。1.flink依赖jdk和scala(安装省略)jdk环境变量配置:vim /etc/profileexport JAVA_HOME=/home/hadoop/jdk8export PATH=$JAVA_HOME/bin:$PATHexport
2021-11-16 22:13:17 1733
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人