大数据之Flink
文章平均质量分 72
学习flink
lxtx-0510
这个作者很懒,什么都没留下…
展开
-
【Flink】容错机制
目录1、检查点编辑1.1 检查点的保存1.1.1 周期性的触发保存1.1.2 保存的时间点1.1.3 时间点的保存与恢复1.1.3.1保存编辑1.1.3.2 恢复的具体步骤:1.2 检查点算法1.2.1 检查点分界线(Barrier)1.2.2 分布式快照算法(Barrier对齐的精准一次)1.2.3 分布式快照算法(Barrier对齐的至少一次)1.2.4 分布式快照算法(非Barrier对齐的精准一次)1.3检查点配置1.3.1启用检查点 1.3.2检查点存储1.3.3其它高级配置1.3.3.1常原创 2023-12-03 15:06:41 · 1018 阅读 · 0 评论 -
【Flink】Standalone运行模式
独立模式是独立运行的,不依赖任何外部的资源管理平台;当然独立也是有代价的:如果资源不足或者出现故障没有自动扩展或重分配资源的保证,必须手动处理。所以独立模式一般只用在开发测试或作业非常少的场景下。提前启动集群,并通过Web页面客户端提交任务(可以多个任务,但是集群资源固定)。原创 2023-11-23 23:29:58 · 1040 阅读 · 0 评论 -
【Flink】状态管理
根据当前的输入可以直接转换得到输出结果,这种鼻子就是无状态算子,如map,flatMap,filter。原创 2023-11-23 23:17:05 · 2465 阅读 · 2 评论 -
【Flink】Process Function
它是底层提炼的一个可以自定义处理逻辑的操作,被叫作“处理函数”(process function)。原创 2023-11-21 23:24:55 · 593 阅读 · 0 评论 -
【FLink】水位线(Watermark)
在Flink中,用来衡量事件时间进展的标记,就被称作“水位线”(Watermark)。说白了就是事件时间戳。原创 2023-11-21 22:43:27 · 2096 阅读 · 0 评论 -
【Flink】窗口(Window)
窗口(Window)是处理无界流的关键所在。窗口可以将数据流装入大小有限的“桶”中,再对每个“桶”加以处理。本文的重心将放在 Flink 如何进行窗口操作以及开发者如何尽可能地利用 Flink 所提供的功能。我们将窗口理解为一个一个的水桶,数据流(stream)就像水流,每个数据都会分发到对应的桶中,当达到结束时间时,对每个桶中收集的数据进行计算处理Flink中窗口并不是静态准备好的,而是动态创建——当有落在这个窗口区间范围的数据达到时,才创建对应的窗口。原创 2023-11-19 21:50:57 · 732 阅读 · 0 评论 -
【Flink】核心概念:任务槽(Task Slots)
每个 worker(TaskManager)都是一个 JVM 进程,可以在单独的线程中执行一个或多个 subtask。为了控制一个 TaskManager 中接受多少个 task,就有了所谓的 task slots(至少一个)。每个任务槽(task slot)其实表示了TaskManager拥有计算资源的一个固定大小的子集。这些资源就是用来独立执行一个子任务的。原创 2023-11-18 17:02:34 · 381 阅读 · 0 评论 -
【Flink】系统架构
DataStream API 将你的应用构建为一个 job graph,并附加到 StreamExecutionEnvironment。当调用 env.execute() 时此 graph 就被打包并发送到 JobManager 上,后者对作业并行处理并将其子任务分发给 Task Manager 来执行。每个作业的并行子任务将在 task slot 中执行。原创 2023-11-16 22:15:45 · 207 阅读 · 0 评论 -
【Flink】核心概念:并行度与算子链
当要处理的数据量非常大时,我们可以把一个算子操作,“复制”多份到多个节点,数据来了之后就可以到其中任意一个执行。这样一来,一个算子任务就被拆分成了多个并行的“子任务”(subtasks),再将它们分发到不同节点,就真正实现了并行计算。被称之为其并行度(parallelism)。这样,包含并行子任务的数据流,就是并行数据流,它需要多个分区(stream partition)来分配并行任务。一般情况下,一个流程序的并行度,可以认为就是其所有算子中最大的并行度。一个程序中,不同的算子可能具有不同的并行度。原创 2023-11-16 22:48:40 · 601 阅读 · 0 评论 -
【Flink】输出算子(sink)
Flink 还提供了一个 sink 来收集 DataStream 的结果原创 2023-11-15 07:14:12 · 83 阅读 · 0 评论 -
【Flink】分流和合流
所谓“分流”,就是将一条数据流拆分成完全独立的两条、甚至多条流。也就是基于一个DataStream,定义一些筛选条件,将符合条件的数据拣选出来放到对应的流里。原创 2023-11-14 22:41:26 · 69 阅读 · 0 评论 -
【Flink】转换算子(Transformation)
数据源读入数据之后,我们就可以使用各种转换算子,将一个或多个DataStream转换为新的DataStream。原创 2023-11-14 07:53:07 · 228 阅读 · 0 评论 -
【Flink】Data Source 原理
一个数据 source 包括三个核心组件:分片(Splits)、分片枚举器(SplitEnumerator) 以及 源阅读器(SourceReader)。原创 2023-11-13 23:37:58 · 246 阅读 · 0 评论 -
【Flink】DataStream API
Flink 中的 DataStream 程序是对数据流(例如过滤、更新状态、定义窗口、聚合)进行转换的常规程序。数据流的起始是从各种源(例如消息队列、套接字流、文件)创建的。结果通过 sink 返回,例如可以将数据写入文件或标准输出(例如命令行终端)。Flink 程序可以在各种上下文中运行,可以独立运行,也可以嵌入到其它程序中。任务执行可以运行在本地 JVM 中,也可以运行在多台机器的集群上。原创 2023-11-12 08:08:24 · 24 阅读 · 0 评论 -
【Flink】执行模式(流/批)
在自然环境中,数据的产生原本就是流式的。无论是来自 Web 服务器的事件数据,证券交易所的交易数据,还是来自工厂车间机器上的传感器数据,其数据都是流式的。但是当你分析数据时,可以围绕 有界流(bounded)或 无界流(unbounded)两种模型来组织处理数据。原创 2023-11-12 08:39:42 · 80 阅读 · 0 评论 -
【Flink】Data Source
Flink可以从各种来源获取数据,然后构建DataStream进行转换处理。一般将数据的输入来源称为数据源(data source),而读取数据的算子就是源算子(source operator)。所以,source就是我们整个处理程序的输入端。通过 StreamExecutionEnvironment 可以访问多种预定义的 stream source。原创 2023-11-13 07:46:41 · 39 阅读 · 0 评论 -
【Flink】执行环境
获取执行环境的三种方式getExecutionEnvironment();createLocalEnvironment();createRemoteEnvironment(String host, int port, String... jarFiles);原创 2023-11-12 08:25:48 · 66 阅读 · 0 评论 -
【Flink】快速开始Flink
如何快速开发一个简单的Flink模型原创 2023-11-11 17:40:52 · 44 阅读 · 0 评论 -
【Flink】利用IDEA快速搭建一个Flink工程
在准备好所有的开发环境之后,我们就可以开始开发自己的第一个Flink程序了。首先我们要做的,就是在IDEA中搭建一个Flink项目的骨架。我们会使用Java项目中常见的Maven来进行依赖管理。原创 2023-11-11 21:56:06 · 592 阅读 · 0 评论 -
【Flink】Flink概述
1.4 Flink的应用场景。1.5 Flink分层API。1.1 Flink是什么。1.2 Flink特点。原创 2023-11-11 17:33:01 · 23 阅读 · 0 评论