Flink
文章平均质量分 90
提灯寻梦在南国
这个作者很懒,什么都没留下…
展开
-
一次记录 flink job 消费kafka 迁移pulsar踩坑过程
背景简述业务上,原有的kafka集群迁移pulsar 后续会下线kafak集群,原有的一些消费kafka topic 的任务和进程需要迁移至pulsar 并下线旧的消费kafka任务。目前在迁移期间,上报的消息会双写到kafka pulsar,消费组的offset二者是独立的。待迁移的flink job 之前flink 版本是 1.9.1(scala 2.12) 消费kafakFlinkKafkaConsumer<String> myConsumer = KafkaConsumerFact原创 2021-12-31 18:18:04 · 2057 阅读 · 5 评论 -
Flink笔记06——浅谈Table API
前言在 Spark 中有 DataFrame 这样的关系型编程接口,因其强大且灵活的表达能力,能够让 用户通过非常丰富的接口对数据进行处理,有效降低了用户的使用成本。Flink 也提供了关 系型编程接口 Table API 以及基于 Table API 的 SQL API,让用户能够通过使用结构化编程 接口高效地构建 Flink 应用。同时 Table API 以及 SQL 能够统一处理批量和实时计算业务, 无须切换修改任何应用代码就能够基于同一套 API 编写流式应用和批量应用,从而达到真正 意义的批流原创 2020-07-26 21:28:13 · 522 阅读 · 0 评论 -
Flink05——一文了解Flink的Window和Time
前言窗口计算是流式计算中非常常用的数据计算方式之一,通过按照固定时间或长度将 数据流切分成不同的窗口,然后对数据进行相应的聚合运算,从而得到一定时间范围内的统计结果。窗口(Windows)在SparkStreaming Flink中都是非常重要的概念。例如统计最近5分钟内某基站的呼叫数,此时基站的数据在不断地产生,但是通过5分钟的窗口将数据限定在固定时间范围内,就可以对该范围内的有界数据执行聚合处理,得出最近5分钟的基站的呼叫数量。window分类1.Global Window 和 Keyed Wi原创 2020-06-04 16:38:25 · 392 阅读 · 0 评论 -
Flink笔记04——一文了解State管理和恢复
前言State 一般指一个具体的 Task/Operator 的状态,State 数据默认保存在 Java 的堆内存中。CheckPoint(可以理解为 CheckPoint 是把 State 数据持久化存储了)则表示了一个 Flink Job 在一个特定时刻的一份全局状态快照,即包含了所有 Task/Operator 的状态。常用StateFlink 有两种常见的 State 类型,分别是:keyed State(键控状态)Operator State(算子状态)Keyed Stat原创 2020-06-04 11:21:46 · 381 阅读 · 0 评论 -
Flink笔记03——一文了解DataStream
前言在前面的博客中原创 2020-06-04 10:37:48 · 596 阅读 · 0 评论 -
Flink笔记02——单词计数wc和集群部署
前言在上一篇文章Flink笔记01——入门篇讲述了Flink的一些基础知识后,这篇博客,我们结合日常开发,主要介绍一些Flink的基础编程和框架搭建。第一个Flink代码相信学过MR Spark的同学 编写的第一个程序都是单词计数word count,同理 这里南国也是以单词计数作为开始。开发环境(由于之前的博客 很多时候忘记描述这个步骤,作为该系列的基础篇,这次尽可能的在每个地方描述细...原创 2020-04-16 10:04:38 · 428 阅读 · 0 评论 -
Flink笔记01——入门篇
前言在目前开源的大数据引擎中,流计算有Flink,Storm,Kafka Stream等,批处理(离线计算)有Spark, MApReduce等。而同时支持流处理和批处理的计算引擎,只有两种选择:一个是Apache Spark,一个是Apache Flink。从技术,生态等各方面的综合考虑,Spark 的技术理念是基于批来模拟流的计算(我们习惯将之称为批流处理)。而Flink则完全相反,它采用...原创 2020-04-14 21:39:45 · 500 阅读 · 0 评论