![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Flink
BigMoM1573
淡泊名利
展开
-
Flink_SQL 应用
文章目录1.批数据 SQL2. 流数据 SQL1.批数据 SQL参考代码package com.czxy.flink.streamimport org.apache.flink.api.scala.ExecutionEnvironmentimport org.apache.flink.table.api.{Table, TableEnvironment}import org.apache.flink.table.api.scala.BatchTableEnvironmentimport o原创 2020-07-19 20:03:43 · 260 阅读 · 1 评论 -
flink_SQL 开发
文章目录1.背景2. Flink SQL 常用算子2.1 SELECT2. WHERE3. DISTINCT4. GROUP BY5. UNION 和 UNION ALL6. JOIN7. Group Window1.背景2. Flink SQL 常用算子2.1 SELECTSELECT 用于从 DataSet/DataStream 中选择数据,用于筛选出某些列。示例:SELECT * FROM Table;// 取出表中的所有列 SELECT name,age FROM Table;原创 2020-07-19 19:52:12 · 522 阅读 · 0 评论 -
Flink_Flink 的状态管理
文章目录Flink 的状态管理1 State-Keyed State2 State-Operator State3 Broadcast StateFlink 的状态管理1 State-Keyed State2 State-Operator State3 Broadcast State原创 2020-07-19 16:14:43 · 134 阅读 · 0 评论 -
Flink_Flink 的容错
文章目录1. Checkpoint 介绍2. 持久化存储2.1 MemStateBackend(默认)2.2 FsStateBackend(建议使用)2.3 RocksDBStateBackend2.4 语法2.5 修改 State Backend 的两种方式3 Checkpoint 的高级选项4 Flink 的重启策略4.1 固定延迟重启策略(Fixed Delay Restart Strategy)4.2 失败率重启策略4.3 无重启策略代码示例:1. Checkpoint 介绍2. 持久原创 2020-07-19 16:12:01 · 170 阅读 · 1 评论 -
Flink_EventTime 与 Window
文章目录1 EventTime 的引入2. Watermark2.1 基本概念2.2 Watermark 的引入3 EventTimeWindow API3.1 滚动窗口(TumblingEventTimeWindows)3.2 滑动窗口(SlidingEventTimeWindows)3.3 会话窗口(EventTimeSessionWindows)1 EventTime 的引入在 Flink 的流式处理中,绝大部分的业务都会使用 eventTime,一般只在 eventTime 无法使用时,才会被迫原创 2020-07-19 15:46:26 · 365 阅读 · 0 评论 -
Flink_DataStream API 开发(入门案例)
文章目录Time 与 Window1. Time2. Window3. Window API3.1CountWindow3.2 TimeWindow3.3 Window Reduce3.4 Window Apply3.5 Window Fold3.6 Aggregation on WindowTime 与 Window1. Time2. WindowWindow 概述streaming 流式计算是一种被设计用于处理无限数据集的数据处理引擎,而无限数据集 是指一种不断增长的本质上无限的数据集,原创 2020-07-19 15:23:44 · 2448 阅读 · 1 评论 -
Flink_DataStream 的 Transformation
文章目录DataStream 的 Transformation1. KeyBy2. Connect3. Split 和 select数据输出 Data Sinks1.sink 到 kafka2. sink 到 mysqlDataStream 的 Transformation1. KeyBy逻辑上将一个流分成不相交的分区,每个分区包含相同键的元素。在内部,这是通过散 列分区来实现的package com.czxy.flink.stream.transformationimport org.apac原创 2020-07-19 14:29:02 · 147 阅读 · 0 评论 -
Flink_输入数据集 Data Sources
文章目录1.Flink 在流处理上常见的 Source2.基于集合的 source3.基于文件的 source(File-based-source)4. 基于网络套接字的 source(Socket-based-source)5. 自定义的 source(Custom-source)5.1 SourceFunction:创建非并行数据源。5.2 ParallelSourceFunction:创建并行数据源。5.3 RichParallelSourceFunction:创建并行数据源。6. 基于 kafka原创 2020-07-19 14:03:55 · 214 阅读 · 0 评论 -
Flink_DataStream API 开发(入门案例)
文章目录1.Flink 流处理程序的一般流程1.Flink 流处理程序的一般流程1)获取 Flink 流处理执行环境2)构建 source3)数据处理4)构建 sink示例编写 Flink 程序,用来统计单词的数量。步骤1)获取 Flink 批处理运行环境2)构建一个 socket 源3)使用 flink 操作进行单词统计4)打印说明:如果 linux 上没有安装 nc 服务 ,使用 yum 安装yum install -y nc参考代码package co原创 2020-07-19 13:12:32 · 254 阅读 · 0 评论 -
Flink_Flink 的分布式缓存
文章目录Flink 的分布式缓存Flink Accumulators & Counters(了解)Flink 的分布式缓存操作步骤将 distribute_cache_student 文件上传到 HDFS / 目录下获取批处理运行环境创建成绩数据集对 成绩 数据集进行 map 转换,将(学生 ID, 学科, 分数)转换为(学生姓名,学科, 分数)a. RichMapFunction 的 open 方法中,获取分布式缓存数据b. 在 map 方法中进行转换实现 open 方法a原创 2020-07-18 22:31:31 · 749 阅读 · 0 评论 -
Flink_ Flink的广播变量
文章目录步骤获取批处理运行环境分别创建两个数据集使用 RichMapFunction 对 成绩 数据集进行 map 转换在数据集调用 map 方法后,调用 withBroadcastSet 将 学生 数据集创建广播实现 RichMapFunctiona. 将成绩数据(学生 ID,学科,成绩) -> (学生姓名,学科,成绩)b. 重写 open 方法中,获取广播数据c. 导入 scala.collection.JavaConverters._ 隐式转换d. 将广播数据使用 a原创 2020-07-18 22:23:07 · 782 阅读 · 0 评论 -
Flink_数据输出 Data Sinks
文章目录1.基于本地集合的 sink(Collection-based-sink)2 .基于文件的 sink(File-based-sink)2.1 将数据写入本地文件/将数据写入 HDFSflink 在批处理中常见的 sink基于本地集合的 sink(Collection-based-sink)基于文件的 sink(File-based-sink)1.基于本地集合的 sink(Collection-based-sink)package com.czxy.flink.batch.sinki原创 2020-07-18 21:59:02 · 1098 阅读 · 0 评论 -
Flink_DateSet 的 Transformation
文章目录1. map 函数2. flatMap 函数3. mapPartition 函数4.filter 函数5. reduce 函数6. reduceGroup7. Aggregate8. minBy 和 maxBy9. distinct 去重10. Join11. LeftOuterJoin12. RightOuterJoin13. fullOuterJoin14 .cross 交叉操作15. Union16. Rebalance17 .First1. map 函数参考代码import org.原创 2020-07-18 21:47:54 · 183 阅读 · 0 评论 -
Flink_输入数据集 Data Sources
文章目录1.基于本地集合的 source(Collection-based-source)2.基于文件的 source(File-based-source)3.基于文件的 source(遍历目录)Data Sources 是什么呢?就字面意思其实就可以知道:数据来源。 Flink 做为一款流式计算框架,它可用来做批处理,即处理静态的数据集、历史的数据 集;也可以用来做流处理,即实时的处理些实时数据流,实时的产生数据流结果,只要数据 源源不断 的过来,Flink 就能够一直计算下去,这个 Data Sour原创 2020-07-18 20:21:06 · 497 阅读 · 0 评论 -
Flink_DataSet API 开发(入门案例)
文章目录1.Flink 批处理程序的一般流程步骤实现参考代码将程序打包,提交到 yarn1.Flink 批处理程序的一般流程获取 Flink 批处理执行环境构建 source数据处理构建 sink示例编写 Flink 程序,用来统计单词的数量。步骤IDEA 创建项目导入 Flink 所需的 Maven 依赖创建 scala 单例对象,添加 main 方法获取 Flink 批处理运行环境构建一个 collection 源使用 flink 操作进行单词统计打印实现原创 2020-07-18 19:50:34 · 184 阅读 · 0 评论 -
Flink_运行架构
文章目录4.1 任务提交流程4.2 Worker 与 Slots4.3 程序与数据流4.4 并行数据流4.5 task 与 operator chains4.1 任务提交流程Flink 任务提交后,Client 向 HDFS 上传 Flink 的 Jar 包和配置,之后向 Yarn ResourceManager 提 交 任 务 ,ResourceManager 分 配 Container 资 源 并 通 知 对 应 的 NodeManager 启 动 ApplicationMaster,Appli原创 2020-07-07 23:16:52 · 139 阅读 · 0 评论 -
Flink_集群搭建
文章目录3.1 standalone 集群环境3.1.1 准备工作3.1.2 下载安装包3.1.3 集群规划3.1.4 步骤3.1.5具体操作3.1.6 启动/停止 flink 集群3.1.7 Flink 集群的重启或扩容3.1.8 Standalone 集群架构3.2 高可用 HA 模式3.2.1 HA 架构图3.2.2 集群规划3.2.3 步骤3.2.4 具体操作3.3 yarn 集群环境3.3.1 准备工作3.3.2 集群规划3.3.3 修改 hadoop 的配置参数3.3.4 修改全局变量/etc/原创 2020-07-07 23:11:06 · 355 阅读 · 0 评论 -
Flink_架构体系
文章目录2.1 Flink 中的重要角⾊2.2 无界数据流与有界数据流 无界数据流:2.3 Flink 数据流编程模型2.4 Libraries 支持2.1 Flink 中的重要角⾊JobManager 处理器:也称之为 Master, 用于协调分布式执行, 它们用来调度 task, 协调检查点, 协调失败 时恢复等。 Flink 运行时至少存在一个 master 处理器, 如果配置高可用模式则会存在多 个 master 处理器, 它们其中有一个是 leader, 而其他的都是 standby。原创 2020-07-07 21:06:53 · 375 阅读 · 0 评论 -
Flink_简介
文章目录Flink 简介1.1 Flink 的引入1.2什么是 Flink1.3 Flink 流处理特性1.4 Flink 基石1.5 批处理与流处理Flink 简介1.1 Flink 的引入这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有 Hadoop、Storm, 以及后来的 Spark,他们都有着各自专注的应用场景。Spark 掀开了内存计算的先河,也以 内存为赌注,赢得了内存计算的飞速发展。 Spark 的火热或多或少的掩盖了其他分布式计 算的系统身影。就像 Flink,也就在原创 2020-07-07 20:57:21 · 127 阅读 · 0 评论