![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Flink
文章平均质量分 62
Flink
cpuCode
站在巨人的肩上行走 https://github.com/CPU-Code
展开
-
Flink 导航
Flink , 运行框架 , DataStream , 窗口 , 时间语义 , 处理函数, 状态管理 , 容错机制 , Flink SQL原创 2023-06-05 22:47:31 · 251 阅读 · 0 评论 -
Flink 状态一致性
状态一致性有三种级别: - 最多一次 (AT-MOST-ONCE) : 只处理一次 , 遇到故障就会丢失 , 优点 : 处理快- 至少一次 (AT-LEAST-ONCE) : 不会丢失数据 , 但存在重复数据- 精确一次(EXACTLY-ONCE) : 不会丢失数据 , 也不会重复数据实现要求 : - 端到端 (end-to-end) 的状态一致性 : 数据源、流处理器、外部存储系统都要有保证机制- at-least-once 级别 : 数据源能重放数据原创 2023-06-18 17:46:10 · 1226 阅读 · 0 评论 -
Flink 保存点
保存点 (Savepoint) :用户手动触发保存状态。savepoint 恢复作业, 并修改状态后端。checkpoint 恢复作业。优雅停止 , 并触发保存点。原创 2023-06-18 17:47:23 · 1507 阅读 · 0 评论 -
Flink 检查点配置
当有界数据 , 部分Task 完成 , Flink 1.14 后 , 它们依然能进行检查点。检查点存储 (CheckpointStorage) : 持久化存储位置。Rocksdb 状态后端 : 启用增量 checkpoint。原创 2023-06-18 17:46:43 · 1544 阅读 · 0 评论 -
Flink 状态后端
状态后端 (state backend) : 负责管理本地状态的存储方式, 位置。原创 2023-06-18 17:45:59 · 1884 阅读 · 0 评论 -
Flink 算子状态
算子状态 (Operator State) : 一个算子并行实例上定义的状态,作用范围 : 当前算子任务算子状态支持三种结构类型 : ListState、UnionListState、BroadcastState。原创 2023-06-18 17:43:11 · 1445 阅读 · 0 评论 -
Flink 状态生命时间
生存时间 (time-to-live,TTL) : 当状态在内存中存在时间 > 该值时,就将它清除。原创 2023-06-18 17:44:11 · 163 阅读 · 0 评论 -
Flink 状态概述
算子任务分 :有状态算子的处理流程 :Flink 状态分 :托管状态分 :算子状态 :原创 2023-06-18 17:41:34 · 1833 阅读 · 0 评论 -
Flink 窗口合流
间隔联结 : 对一条流的每个数据,开辟时间戳前后的一段时间间隔。窗口联结 : 在窗口时间内 , 双流合并。原创 2022-01-22 17:32:30 · 1255 阅读 · 0 评论 -
Flink 处理迟来数据
当任务收到多个上游水位线时,选择最小水平线 : 当任务的事件时钟。窗口侧输出流 : 当最迟的数据 , 用窗口的侧输出流来收集。原创 2022-03-17 18:52:40 · 1571 阅读 · 0 评论 -
Flink 生成水平线
周期性水位线生成器 (Periodic Generator ) : 周期触发断点式 (Punctuated) : 不停检测onEvent()事件,当水位线事件,就发出水位线。原创 2021-12-01 16:13:39 · 947 阅读 · 0 评论 -
Flink 水平线
Flink : 把流切分成桶 , 每个数据发到对应的桶 , 当窗口结束 , 就计算。乱序 (out-of-order) : 数据的先后顺序不一致。理想状态 : 都按生成的先后顺序 , 对每条数据生成水位线。水位线 : 度量事件时间进度情况。原创 2021-11-30 20:28:39 · 1689 阅读 · 0 评论 -
Flink 窗口API
触发器 (Trigger) : 控制窗口触发计算移除器 (Evictor) : 移除某些数据的逻辑。原创 2021-11-28 21:19:59 · 653 阅读 · 0 评论 -
Flink 窗口
窗口 (Window) : 把无界流进行切分,每一段数据分别进行聚合,结果只输出一次Flink 窗口把流切成多个存储桶 (bucket)原创 2021-11-24 19:37:15 · 3948 阅读 · 0 评论 -
Flink 分流/合流
连接 (connect) : 将俩条不同类型的流 , 合并在一起。: 将两条流中 key 相同的数据 , 放在一起。联合 (union) : 将多条流合在一起。分流 : 将一条数据流分成 n 条流。将数据流分为 : 奇数流 , 偶数流。原创 2023-06-18 17:09:43 · 199 阅读 · 0 评论 -
Flink 作业提交流程
独立模式 (Standalone) : TaskManager 需要手动先启动 两种部署方式 :- 会话模式 : 预先启动 JobMaster- 应用模式 : 作业提交时 , 启动 JobMasterStandAlone 会话模式提交流程 : 1. 先启动 JobMaster , TaskManager 2. TaskManager 启动后,向 ResourceManager 注册可用任务槽 (slots)3. Client 将作业生成作业流图 , 交给 JobManager原创 2022-01-14 08:33:42 · 327 阅读 · 0 评论 -
Flink 并行度/算子链
Flume 面试题如何实现Flume数据传输的监控的Flume的Source,Sink,Channel的作用?你们Source是什么类型?Flume的Channel 选择器Flume参数调优Flume的事务机制Flume采集数据会丢失吗?Flume组成,Put事务,Take事务如何实现Flume数据传输的监控的采用Ganglia监控器,监控到Flume尝试提交的次数远远大于最终成功的次数,说明Flume运行比较差解决办法 :自身:增加内存 flume-env.sh 4-6g-Xmx 与 -原创 2021-12-26 21:51:50 · 362 阅读 · 0 评论 -
Flink 任务槽/执行图
任务槽 (task slot) : TaskManager 能运行任务的固定资源的子集TaskManager/Slot 任务分配 :设置任务槽数 : :任务槽共享共享 Slot : 同个作业,而不同任务节点 (算子) 的并行子任务,能放到同个 slot 执行slot 共享好处 :设置 slot 共享组任务槽/并行度任务槽/并行度区别 :作业的并行度 : 所有算子中最大的并行度 : 运行时 , 要的 slot 数例子 :3 个 TaskManager,每个 TaskManager 的 slot 数为原创 2021-11-30 21:39:40 · 1384 阅读 · 0 评论 -
Flink 系统架构
TaskManager ( 任务管理器, Worker ) : Flink 中的工作进程,负责数据流中具体计算。Flink 的 ResourceManager 与 YARN 的 ResourceManager 不一样。每个 TaskManager : 有 n 个的任务槽 (task slots)JobManager ( 作业管理器 ) : 控制应用执行的主进程。JobMaster : 处理单独的作业 (Job)原创 2021-10-05 23:18:22 · 626 阅读 · 0 评论 -
Flink Yarn 部署
注意点 : - Flink1.8.0 on YARN 前时,要下载 Hadoop 组件 `flink-shaded-hadoop-2-uber-2.7.5-10.0.jar`,并传到 Flink/lib 下- Flink 1.11.0 后,不用 `flink-shaded-hadoop-*jar`,只用配置环境变量- Flink on YARN 时 , 要 Hadoop 2.2 以上原创 2021-10-05 23:15:44 · 573 阅读 · 0 评论 -
Flink 部署模式
Flink 组件:- 客户端 (Client) : 代码转换成图 , 并提交给 JobManger- 作业管理器 (`JobManager`) : 调度作业 给 TaskManager- 任务管理器 (`TaskManager`) : 处理数据原创 2022-03-18 14:19:57 · 1136 阅读 · 0 评论 -
Flink SQL Catalog
Catalog : 提供元数据信息,如 : 数据库、表、分区、视图、数据库、其他外部系统中存储的函数和信息。原创 2023-06-05 23:04:24 · 661 阅读 · 0 评论 -
Flink SQL Join
DataStream 的双流 Join有 : 窗口联结 (window join) , 间隔联结 (interval join): 维表 Join,实时获取外部缓存的 Join。原创 2023-06-05 23:03:26 · 754 阅读 · 0 评论 -
Flink SQL DDL
时间属性 (time attributes) :每个表模式结构 (schema) 的一部分。表属性 : 指定外部存储系统的元数据信息。主键约束 : 唯一性,且不为 NULL。原创 2023-06-05 23:02:41 · 593 阅读 · 1 评论 -
Flink SQL 动态表
动态表 (Dynamic Tables) : 当流有新数据到来,表就会插入一行持续查询 : 每来个数据, 就会触发查询,当前动态表的所有数据。原创 2023-06-05 22:56:26 · 569 阅读 · 0 评论 -
Flink SQL sql-client
指定 sql 文件。原创 2023-06-05 22:57:05 · 967 阅读 · 0 评论 -
DataStream 物理分区算子
自定义分区策略 (Custom) : 根据需求分区} }对数据按奇偶性进行重分区 :// 将自然数按照奇偶分区 env . fromElements(1 , 2 , 3 , 4 , 5 , 6 , 7 , 8) . partitionCustom(new MyPartitioner() , new KeySelector < Integer , Integer >() {} }原创 2023-06-05 22:52:33 · 377 阅读 · 0 评论 -
DataStream 执行环境
Flink 为了实现流批一体 : - 弃用 DataSet API - 统一用 `DataStream API` 处理流数据 , 批数据Flink 程序构成 :- 获取执行环境(execution environment)- 读取数据源(source)- 定义基于数据的转换操作(transformations)- 定义计算结果的输出位置(sink)- 触发程序执行(execute)原创 2023-06-05 22:50:44 · 452 阅读 · 0 评论 -
Flink入门编程
2.Flink入门编程环境准备创建项目创建工程添加项目依赖配置日志管理编写代码批处理运行程序流处理读取文件运行程序读取文本流原创 2022-04-19 22:20:13 · 4168 阅读 · 0 评论 -
Flink 概述
Flink 概述Flink 的应用电商和市场营销物联网(IOT)物流配送和服务业银行和金融业流式数据处理流处理和批处理传统事务处理有状态的流处理事件驱动型(Event-Driven)应用数据分析(Data Analysis)型应用数据管道(Data Pipeline)型应用Lambda 架构FlinkFlink 的特性分层 API底层 API核心 APITable APISQLFlink vs Spark数据处理架构有界流无界流数据模型和运行架构原创 2022-01-04 22:23:54 · 1379 阅读 · 0 评论