Flink
宫城诗
这个作者很懒,什么都没留下…
展开
-
20200604——flink datastream开发
flink流处理程序的一般流程 1)获取flink流处理执行环境 2)构建source 3)数据处理 4)构建sink 与批处理相比 1.运行环境不同,streamexecutionenvironment 2.有些算子不同 3.程序是一直运行的,除非我们手动停止 输入数据集data source flink中你可以使用streamexecutionenvironment.addSource(source)来为程序添加数据来源 flink已经提供了若干实现好的source functions,当然你也可以通原创 2020-06-04 15:22:12 · 255 阅读 · 0 评论 -
20200604——flink了解dataset开发
Data Source data source 是什么呢,字面意思可以知道:数据来源 flink做为一个流式计算框架,可以用来批处理,也可以用来流处理。 批处理可以是静态的数据集,历史的数据集。 也可以用来做流处理,即实时的处理些实时数据流,实时产生数据流的结果,只要数据源源不断的传递过来,flink就可以一直计算下去,这个data source 就是数据的来源 flink 批处理的source常见有两大类 基于本地集合的source 基于文件的source 基于集合 基于文件 读取本地文件数据readt原创 2020-06-04 14:39:45 · 425 阅读 · 0 评论 -
20200603——Flink运行架构
Flink运行架构 flink程序结构 flink程序的基本构建是流和转换。底层无论是批处理还是流处理都当作是流处理。 source 数据源,flink在流处理和批处理上的source大概有4类,基于本地集合的source 基于文件的source 基于网络套接字的source 自定义的source。 自定义的source常见的有kafka,mq等,当然也可以定义自己的source transformation 数据转换的各种操作,有map/flatmap/filter/keyby/reduce/fold/原创 2020-06-03 20:51:39 · 189 阅读 · 0 评论 -
20200531——Flink架构体系
Flink重要的角色 JobManager 负责任务调度执行和分发任务 称之为Master,用于协调分布式执行,用来调度task,协调检查点CheckPoint,协调失败时候恢复等,Flink运行时至少存在一个master处理器,如果配置高可用模式会存在多个master处理器,他们其中有一个是leader,而其他的都是standby TaskManager 负责任务的进行 称之为worker,用于执行一个dataflow的task(或者说是特殊的subtask)、数据缓冲和datastream的交换,Fl原创 2020-05-31 20:37:34 · 176 阅读 · 0 评论 -
20200531——Flink的简介
Flink的引入 前言 大数据的飞速发展,出现了很多开源社区,Hadoop、Storm,以及Spark,他们都有各自的专注的应用场景。Spark开创了内存计算的先河,也以内存为赌注,赢得了内存计算的飞速发展,Spark的火热或多或少掩盖了其他分布式计算的系统身影,就像Flink,也就在这个时候默默的发展着。 DAG DAG是有向无环图(Directed Acyclic Graph)的简称。在大数据处理中,DAG计算常常指的是将计算任务在内部分解成为若干个子任务,将这些子任务之间的逻辑关系或顺序构建成DAG(原创 2020-05-31 15:59:26 · 207 阅读 · 0 评论