flink
CurryYoung11
这个作者很懒,什么都没留下…
展开
-
flink-时间语义与 Wartermark (十)
10.flink-时间语义与 Wartermark (十)在 Flink 的流式处理中,会涉及到时间的不同概念Event Time:是事件创建的时间。它通常由事件中的时间戳描述,例如采集的日志数据中,每一条日志都会记录自己的生成时间,Flink 通过时间戳分配器访问事件时间戳。 Ingestion Time:(数据通常需要通过消息队列如卡夫卡进入flink)是数据进入 Flink 的时间...原创 2020-04-01 20:00:54 · 425 阅读 · 0 评论 -
fink-DataSet(五)
5.fink-DataSet(五)1.source基于文件readTextFile(path)基于集合fromCollection(Collection)基于socket自定义2.transformationsmap:输入一个元素,然后返回一个元素,中间可以做一些清洗转换等操作flatMap:输入一个元素,可以返回零个,一个或者多个元素mapPartition:类似map,...原创 2020-04-01 19:58:10 · 255 阅读 · 0 评论 -
fink-DataStream(四)
4.fink-DataStream(四)1.source1.基于文件readTextFile(path)读取文本文件,文件遵循TextInputFormat读取规则,逐行读取并返回。2.基于socketsocketTextStream从socker中读取数据,元素可以通过一个分隔符切开。3.基于集合fromCollection(Collection)通过java 的collect...原创 2020-04-01 19:57:01 · 309 阅读 · 0 评论 -
flink-部署模式(三)
3.flink-部署模式(三)1.local模式2.standalone修改conf/flink-conf.yaml# 必选# 指定jobmanager的hostnamejobmanager.rpc.address: node01# 可选# 指定jobmanager的portjobmanager.rpc.port: 6123# 指定jobmanager的可用堆内存量(单位为M...原创 2020-04-01 19:55:57 · 533 阅读 · 0 评论 -
flink-运行时架构(二)
2.flink-运行时架构(二)运行时组件作业管理器(JobManager)控制一个应用程序执行的主进程,每个应用程序都会被一个不同的JobManager所控制JobManager会先接收到要执行的应用程序,这个应用程序包括:作业图(JobGraph)、逻辑数据流图(logical dataflow graph)和打包了所有的类、库和其它资源的 JAR 包。JobManager ...原创 2020-04-01 19:54:31 · 398 阅读 · 0 评论 -
flink-简介(一)
1、flink-简介(一)1.定义:flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行状态计算2.特点:低延迟、高吞吐、结果的准确性和容错性3.flink主要优势:事件驱动:每一条消息或记录就是一个事件基于流的世界观:一切都是流组成的,离线数据是有界的流,实时数据是没有界限的流,即有界和无界的流分层的API:越顶层越抽象,表达含义越简明,使用越方便。越底层越具体,表达能...原创 2020-04-01 19:53:31 · 229 阅读 · 0 评论 -
flink-状态一致性(十三)
flink-状态一致性状态一致性1.有状态的流处理,内部每个算子任务都可以有自己的状态2.对于流处理内部来说,所谓的状态一致性就是我们所说的计算结果要保证准确3.一条数据不丢失,也不重复计算4.在遇到故障时可以恢复状态,恢复以后的重新计算,结果应该也是完成正确的状态一致性分类:1.exactly-once恰好处理一次是最严格的保证,也是最难实现的。恰好处理一次语义不仅仅意味着没有...原创 2020-03-31 13:43:37 · 259 阅读 · 0 评论 -
flink-容错机制(十二)
flink-容错机制1.一致性检查点1、flink故障恢复机制的核心,就是应用状态的一致性检查点2、有状态流应用的一致检查点,就是所有任务的状态,在某个时间点的一份拷贝(快照),在这个时间点,应该就是所有任务都恰好处理完一个相同的输入数据的时候2.从检查点恢复状态1.在执行流应用程序期间,flink会定期保存状态的一致检查点2.如果发生故障,flink讲会使用最近的检查点来一致恢复应...原创 2020-03-31 13:42:59 · 220 阅读 · 0 评论 -
flink-checkpoint和状态后端存储(十一)
flink-checkpoint和状态后端存储1.checkPoint简介为了保证state的容错性,Flink需要对state进行checkpoint。Checkpoint是Flink实现容错机制最核心的功能,它能够根据配置周期性地基于Stream中各个Operator/task的状态来生成快照,从而将这些状态数据定期持久化存储下来,当Flink程序一旦意外崩溃时,重新运行程序时可以有选择...原创 2020-03-31 13:42:25 · 814 阅读 · 0 评论 -
flink-支持的数据类型和序列化(七)
flink-支持的数据类型和序列化datatypeJava Tuple 和 Scala case classJava POJO:java实体类Primitive Types 默认支持java和scala基本数据类型General Class Types 默认支持大多数java和scala classHadoop Writables 支持hadoop中实现了org.apache.h...原创 2020-03-31 13:40:42 · 521 阅读 · 0 评论 -
flink-window窗口操作(九)
flink-window窗口操作1.window概念streaming 流式计算是一种被设计用于处理无限数据集的数据处理引擎,而无限数据集是指一种不断增长的本质上无限的数据集,而 window 是一种切割无限数据为有限块进行处理的手段。 Window 是无限数据流处理的核心,Window 将一个无限的 stream 拆分成有限大小的”buckets”桶,我们可以在这些桶上做计算操作2.w...原创 2020-03-30 21:28:11 · 333 阅读 · 0 评论 -
flink-广播变量、累加器、缓存(八)
flink-广播变量、累加器、缓存broadcast/*1.将要广播的数据转成DataSet类型 DataSet<Tuple2<String, Integer>> tupleData = env.fromCollection(broadData); 2.自定义富函数 此处定义的是 new RichMapFunction 在open方法中获取广播变量数据3...原创 2020-03-30 20:51:38 · 455 阅读 · 0 评论 -
flink-状态编程(六)
flink-状态管理–编程状态概念流式计算分为无状态和有状态两种情况:1.无状态:无状态的计算观察每个独立事件,并根据最后一个事件输出结果2.有状态:有状态的计算则会基于多个事件输出结果(需要多个事件结果进行聚合操作)。3.有状态的部分场景:(1).所有类型的窗口。例如,计算过去一小时的平均温度,就是有状态的计算。(2).所有用于复杂事件处理的状态机。例如,若在一分钟内收...原创 2020-03-30 20:12:55 · 1136 阅读 · 0 评论