Flink
文章平均质量分 73
系统剖析flink知识点
桥~
专注大数据技术,努力搬好每块砖~~~
展开
-
基础篇(四):Flink 状态管理
一、基础概念理解:state(状态):相同于本地变量,维护计算过程中需要存储的中间数据有以下两种类型:operator state(算子状态)keyed state(键控状态)state backend(状态后端):负责状态的存储(checkpoint方式)、访问按存储方式有以下形式:MemoryStateBackend:将状态当作Java的对象存储在TaskManager JVM进程的堆上FsStateBackend:将状态存储在本地的文件系统或者远程的文件系统如HDFSRocks原创 2021-02-21 19:16:15 · 223 阅读 · 0 评论 -
基础篇(三):Flink window窗口计算
一、基本概念理解1、窗口: 是将无限的数据流根据时间语义维度切割成一个有限大小的桶,然后对这个桶内的数据进行计算2、窗口分类:滚动窗口 tumbling window描述:按照固定的时间长度对数据流切分,且窗口之间不会出现重叠滑动窗口 sliding window描述:由固定的窗口长度和滑动间隔组成,窗口之间有重叠,通常滑动间隔要小于窗口长度会话窗口 session window描述:在一定的时间长度timeout没有接收到数据,则生成一个新的窗口全局窗口 g原创 2021-02-17 16:52:49 · 711 阅读 · 0 评论 -
基础篇(二):Flink DataStream API使用
前言流式处理系统通常需要支持无限数据流的处理,则会采用数据驱动的处理方式。通俗点讲,提前设计好数据的处理算子,数据到达后直接执行,而表达这套计算逻辑使用DAG(有向无环)图Word Countpublic static void main(String[] args) throws Exception{ // 1、创建执行环境 StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(原创 2020-11-29 22:14:37 · 258 阅读 · 0 评论 -
基础篇(一):Flink的定义、运行架构
###一、 定义Flink是一个分布式大数据处理引擎,可对有界或无界的数据流进行有状态或无状态的计算,具有低延迟、高吞吐、事件精确一次处理的特点。需要理解的基础处理语义streams(数据流) 有界数据流 是指批处理 无界数据流是指实时流处理,flink的世界观里一切皆是流state(状态计算) 需要记录中间结果信息的计算操作,有状态的作用:1)输出多个事件处理后的结果,根据最新输入的事件及已处理完事件的状态值,更新当前最新的状态2)容错性 通过持久化存储,保证系统运行失败或者挂掉的情况下原创 2020-11-29 20:25:11 · 414 阅读 · 0 评论