flink
文章平均质量分 61
flink基础入门学习
taotaobujuerulv
这个作者很懒,什么都没留下…
展开
-
flink学习-数据流join
数据流join前提,首先第一要在key by的时候可以分到同一个算子中,另外数据应该落在同一个窗口中才能完成join,输出结果则是匹配上的数据(在匹配结果上而言,与join相似)原创 2024-06-07 10:01:31 · 199 阅读 · 0 评论 -
flink学习-容错机制
在flink中最重要的容错机制,就是checkpoint机制,使用checkpoint可以将之前某个时间点的所有的状态进行保存,这个存档就是checkpoint。原创 2024-06-13 13:41:45 · 489 阅读 · 0 评论 -
flink学习-flink sql
在flink的数据处理中,数据流是源源不断的,是无界的,所以对于flink处理的数据表是一张动态表,所以对于动态表的查询也是持续的,每接收一条新数据会进行一次新的查询。原创 2024-06-18 10:55:00 · 346 阅读 · 0 评论 -
flink学习-处理函数
处理函数就是在进行数据处理的算子,process算子,因为process的使用相对来说非常灵活,这个算子可以说是包含了所有的解决方案,其余向filter等算子的底层实现也是通过调用process算子实现的,针对不同的场景可以实现不同的process抽象类。原创 2024-06-09 15:53:08 · 290 阅读 · 0 评论 -
flink学习-状态管理
在flink中,算子可以分为无状态和有状态两种情况。无状态的算子只需要观察每个独立事件,根据当前输入的数据直接输出结果。像:filter、flatMap、map都属于无状态的算子。有状态的算子则是除当前数据之外,还需要一些其他数据来计算结果。这里说的其他数据其实就是指状态,聚合算子,窗口算子都应该算是有状态的算子。状态也可以分为两种,一种是算子状态,一种是按键分区状态(只有进行key 进行分组的)原创 2024-06-11 11:23:59 · 390 阅读 · 0 评论 -
flink学习-窗口计算
窗口一般有时间窗口和数量的窗口。时间窗口一般指一段时间范围内进行数据,flink中窗口并不是静态准备好的,而是动态创建的,当窗口区间范围有数据到达是,才会开始创建对应的窗口。原创 2024-05-29 11:19:40 · 188 阅读 · 0 评论 -
flink学习-基础编程
一般对于一个flink任务有四个步骤:获取执行环境 -> source(源算子)-> transformation(转换操作)->sink(输出)原创 2024-05-28 17:15:13 · 277 阅读 · 0 评论 -
flink学习-系统架构相关
我们在提交flink job时,一个flink job 会对应一个job manager。原创 2024-05-21 20:04:13 · 174 阅读 · 0 评论 -
Flink学习-时间语义
事件时间:数据产生的时间处理时间:数据的处理时刻。原创 2024-06-04 11:29:53 · 416 阅读 · 1 评论 -
Flink学习-1(基础篇)
简单说flink是一种针对流式的处理框架,能够实现对无穷数据集(无穷的持续集成的数据集合,流数据)和 有界数据集(有限不会改变的数据集合,批量数据)进行实时处理。构成flink的基石有:Checkpoint、State、Time、Window。原创 2024-04-28 19:02:56 · 241 阅读 · 0 评论 -
flink学习-2(配置篇)
用于网络缓冲区的 JVM 内存的分数。该配置必须匹配 “security.kerberos.login.contexts” 中的列表(含有一个):zookeeper.sasl.login-context-name: Client。以逗号分隔的目录列表,用于监视已完成的作业:historyserver.archive.fs.dir: hdfs:///completed-jobs/将已完成的作业上传到的目录:jobmanager.archive.fs.dir: hdfs:///completed-jobs/原创 2024-04-29 10:45:32 · 501 阅读 · 0 评论 -
flink学习-3(Data Source)
addSource - 添加一个新的 source function。例如,你可以 addSource(new FlinkKafkaConsumer011(…)) 以从 Apache Kafka 读取数据基于集合:有界数据集,更偏向于本地测试用基于文件:适合监听文件修改并读取其内容基于 Socket:监听主机的 host port,从 Socket 中获取数据自定义 addSource:大多数的场景数据都是无界的,会源源不断的过来。原创 2024-04-29 14:12:23 · 1395 阅读 · 0 评论 -
flink学习-6(flink项目运行)
需要将依赖在pom.xml进行编辑,需要使用mvn在pom.xml中所在文件下执行完成项目打包,同时将依赖的相关jar打包在内然后使用flink客户端完成任务提交。原创 2024-04-30 15:22:57 · 208 阅读 · 3 评论 -
flink学习-7(parallelism and slot)
parallelism是flink中并行度,用以提高flink任务job的执行效率,可以通过调整配置提高flink任务中并行度。原创 2024-04-30 16:08:52 · 220 阅读 · 3 评论 -
flink学习-4(Data Sink/Transformation)
sink 下沉,在flink数据处理过程中是为了将数据沉淀下来,换句话说,flink通过data source接入数据,然后在flink进行相关计算,然后操作后将计算后的数据结果sink到某个地方。原创 2024-04-30 11:28:29 · 402 阅读 · 3 评论 -
flink学习-5(Stream Windows)
在流式的数据,可以人为数据是源源不断水流,无穷无尽,我如何要对数据流速进行评估,如果统计总计流过的数据流量,如何进行计算,根本原因在于流是无界的,虽然我们不能限制流,但是可以在一段数据上开窗,在这一段数据上可以将数据流看做是有界的数据。原创 2024-04-30 14:33:23 · 1522 阅读 · 0 评论