蜗牛@漫步
这个作者很懒,什么都没留下…
展开
-
Flink的windows窗口介绍与API使用
一般真实的流都是无界的,要处理无界的数据,就需要把无界数据切为有界数据。窗口(window)就是将无限流切割为有限流的一种方式。它会将流数据分发到有限大小的桶(bucket)中进行分析。Flink 提供了非常完善的窗口机制,这是 Flink 最大的亮点之一。第一个方法代表开启一个滚动窗口,参数size:滚动时间长度。第二个方法代表开启一个滑动窗口,参数size: 滚动时间长度,slide: 滑动间隔。原创 2023-03-15 16:27:55 · 499 阅读 · 1 评论 -
Flink API分层
Flink API 分层介绍原创 2022-10-13 15:44:55 · 1087 阅读 · 0 评论 -
Flink最新常用算子说明 - Flink1.12
flink中提供了大量的算子,我这里简单介绍一下常用的算子及基本使用:MapDataStream → DataStream输入一个元素产生一个元素,map的功能是对输入的元素进行转换操作。一个映射函数,将输入流元素的值加倍:dataStream.map { x => x * 2 }FlatMapDataStream → DataStream输入一个元素并产生0、1或多个元素。这个算子多用于拆分操作。可将句子拆分为单词:dataStream.flatMap { str =&原创 2021-04-07 15:40:19 · 440 阅读 · 0 评论 -
flink的窗口介绍
在真实世界中的,无时无刻不在生产数据,这些数据都是无界的,窗口的存在就是将无界的的数据流切割为有限的数据流的方式。一般来说,根据业务类型,窗口可以分成两大类:1、时间窗口2、计数窗口...原创 2021-03-31 15:02:07 · 266 阅读 · 0 评论 -
Flink的窗口聚合
Flink在开启窗口后,经常会对数据进行聚合操作,本文介绍一下Flink的窗口聚合。Flink的窗口聚合的分类分为两类:全量聚合和增量聚合。增量聚合:是每来一条数据计算一次增量数据,窗口时间到了后输出。方法:ReduceFunction和AggregateFunction全量聚合:每来一条数据都放在内存中,当窗口时间到了后,一起计算然后输出。方法:ProcessWindowFunction所以,如果你的内存有限的情况,要谨慎使用全量聚合,以免内存溢出。1. ReduceFunction -原创 2021-03-31 16:49:53 · 1233 阅读 · 0 评论 -
Flink的Savepoint机制
一、什么是savepoint?savepoint与checkpoint有何不同?Flink有检查点(checkpoint)和保存点(savepoint),他们有很多相似的地方,但作用却不相同。Checkpoints的主要目的是在意外的作业失败的情况下提供一种恢复机制。Checkpoint的生命周期由Flink管理,即Checkpoint由Flink创建,拥有和发布,无需用户交互。作为一种恢复和定期触发的方法,Checkpoint实现的两个主要设计目标是:i)创建起来轻巧ii)尽可能快地恢复。与所有原创 2021-02-23 17:05:27 · 994 阅读 · 0 评论 -
Flink任务的失败恢复
在我们写完Flink程序并部署服务器上后,我们希望程序会一直运行下去。但总会有很多情况会导致全部或部分任务出现异常而导致程序中止,这个时候就希望任务能够自动处理这些异常情况。在Flink中提供了4种重启策略,这里简单记录一下。一、固定延迟重启策略固定延迟重新启动策略尝试给定次数重新启动作业。如果超过最大尝试次数,则该作业最终将失败。在两次连续的重新启动尝试之间,重新启动策略将等待固定的时间。通过在中设置以下配置参数,默认启用此策略flink-conf.yaml。restart-strategy:原创 2021-02-23 16:05:49 · 1125 阅读 · 0 评论 -
savepoint的命令实际操作,yarn平台运行
本人的Flink是运行在yarn上的,所以官方部分命令要稍加变化才可生效。1、使用 YARN 触发 Savepoint官方命令:$ bin/flink savepoint :jobId [:targetDirectory] -yid :yarnAppId运行命令:bin/flink savepoint a5169da6ddc48969d0ecb54bc93815eb hdfs:///flink/savepointtest/ -yid application_1613609174694_0233原创 2021-02-24 16:17:17 · 557 阅读 · 0 评论