flink
herokang
会飞的猿
展开
-
spark与Flink对比
批流理念不同spark准确的说是批处理,Spark streaming是微批处理,spark底层都依赖于RDDflink是流式处理,批处理看做是有限的流处理SQLsparksql支持的更好flink一般,在完善中机器学习图计算等spark有mllib和graphx等模块flink比较薄弱任务spark,driver管理,Executor执行,通过RDD分区数和shuffle划分...原创 2020-04-07 01:16:47 · 2899 阅读 · 0 评论 -
Flink(一)Flink基础及常用参数
目录1、Flink是什么2、Flink的特性、优点2.1、流式模型,高吞吐、低延时2.2、丰富的时间语义,支持 Event Time2.3、良好的乱序数据处理能力2.4、高度灵活的窗口2.5、exactly-once 语义2.6、带反压的连续流模型3、标题1、Flink是什么Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据...原创 2020-04-06 23:50:07 · 1441 阅读 · 0 评论 -
Flink之侧输出流和流的拆分
一、准备数据首先构建一个DataStreamcase class Sensor(id: String, timestamp: Long, temperature: Double)传感器样例类包含,传感器id、时间戳、温度构建Streamval env = StreamExecutionEnvironment.getExecutionEnvironment env.setParal...原创 2020-03-01 18:12:52 · 5755 阅读 · 0 评论 -
Flink之Trigger与Evictor
一、概述在Flink中,使用event-time模式时,默认提供的window有TumblingEventTimeWindows,SlidingEventTimeWindows,EventTimeSessionWindow等,其中这些是属于window operator中的一部分,称作 window assigner。window operator包含四个组件,除了 window assigne...原创 2020-03-01 17:34:04 · 5165 阅读 · 0 评论 -
Flink之slot、并行度、graph优化
一、Flink概述Flink运行时主要角色有两个:JobManager和TaskManager。JobManager主要是负责接受客户端的job,调度job,协调checkpoint等。TaskManager执行具体的Task。TaskManager为了对资源进行隔离和增加允许的task数,引入了slot的概念,这个slot对资源的隔离仅仅是对内存进行隔离,策略是均分,比如taskmanag...原创 2020-02-18 19:38:47 · 2442 阅读 · 0 评论 -
Flink之背压
一、背压概述流处理系统需要能优雅地处理反压(backpressure)问题。反压通常产生于这样的场景:短时负载高峰导致系统接收数据的速率远高于它处理数据的速率。许多日常问题都会导致反压,例如,垃圾回收停顿可能会导致流入的数据快速堆积,或者遇到大促或秒杀活动导致流量陡增。反压如果不能得到正确的处理,可能会导致资源耗尽甚至系统崩溃。目前主流的流处理系统 Storm/JStorm/Spark Str...原创 2020-02-18 13:37:40 · 2769 阅读 · 3 评论 -
Flink之Window与窗口开始时间
一、滚动窗口(TumblingEventTimeWindows)// 引入滚动窗口val streamWindow = stream.window(TumblingEventTimeWindows.of(Time.seconds(10)))二、滑动窗口(SlidingEventTimeWindows)// 引入滑动窗口,窗口10s,没5s滑动一次val streamWindow = s...原创 2020-02-15 22:01:19 · 6202 阅读 · 3 评论 -
Flink之windows下,下载及打包运行任务
下载、运行前提下载并配置好jdk,scalaflink下载地址:https://flink.apache.org/downloads.html下载对应scala版本的资源,Apache Flink 1.9.2 for Scala 2.11 (asc, sha512)/conf/flink-conf.yaml里有一些Flink的基本配置信息,如,jobmanager、taskmanager的...原创 2020-02-10 23:39:29 · 1867 阅读 · 0 评论 -
Flink之CEP
一、CEP是什么Flink CEP(complex event processing复杂事件处理)是其实一个Flink库,跟机器学习库是一样的。它是为了更快,更及时的发现一些我们所关心的事情,而不是需要等待几天或则几个月相当长的时间,才发现问题。比如我们的银行卡被人盗刷,如果没有CEP,那么我们即使丢了银行卡,可能也不知道,等我们发现银行卡丢失后,再去挂失等,发现银行卡里已经没钱了。有了CEP,...原创 2020-02-07 11:49:47 · 250 阅读 · 0 评论 -
Flink之状态一致性
一、状态一致性分类最多一次(at most once)当故障发生,什么都不干,既不恢复丢失状态,也不重播丢失的数据。至少一次(at least once)所有事件都处理了,有的事件可能被处理多次精确一次(exactly once)所有事件仅仅被处理一次二、端到端的状态一致性(1)内部保证(checkpoint)(2)source端(可重设数据的读取位置)(3)sink端(从...原创 2020-02-01 21:44:25 · 775 阅读 · 0 评论 -
Flink之聚合、WindowFunction
一、WindowFunctionFlink提供了四种类型Window Function,其中有ReduceFunction、AggregateFunction、FlodFunction和ProcessWindowFunction。其中ReduceFunction、AggregateFunction、FlodFunction根据计算原理,属于增量聚合函数,而ProcessWindowFunctio...原创 2020-02-01 21:41:17 · 1366 阅读 · 0 评论 -
Flink之ProcessFunction API(底层API)
一、产生背景转换算子是无法访问事件的时间戳信息和水位线信息的。而这在一些应用场景下,极为重要。例如MapFunction这样的map转换算子就无法访问时间戳或者当前事件的事件时间。基于此,DataStream API提供了一系列的Low-Level转换算子。可以访问时间戳、watermark以及注册定时事件。还可以输出特定的一些事件,例如超时事件等。Process Function用来构建事件...原创 2020-02-01 18:32:26 · 603 阅读 · 0 评论 -
Flink之容错机制
一、Checkpoint,一致性检查点flink故障恢复机制的核心就是checkpoint有状态的流应用的一致性检查点,其实就是所有任务的状态,在某个时间点的一份快照,这个时间点是指所有任务都恰好处理完一个相同的输入数据的时候如上图所示:此应用有一个source task,消费一个递增数的流,如1,2,3等等。流中的数据被分区到一个奇数流,一个偶数流。在一个sum operator中,...原创 2020-01-31 00:19:21 · 1621 阅读 · 0 评论 -
Flink之watermark和allowedLateness区别
一、两者区别------写在最前面watermark和allowedLateness区别watermark 通过additional的时间戳来控制窗口激活的时间,主要是为了解决数据乱序到达的问题,allowedLateness 用来控制窗口的销毁时间,解决窗口触发后数据迟到后的问题。二、watermarkwatermark在Flink中也称为 水位线或水印,它为流式数据每隔一段时间打...原创 2020-01-28 23:09:31 · 3153 阅读 · 0 评论