flink
文章平均质量分 97
大数据老司机
专注于大数据智能运维和大数据开发领域优质创作者
展开
-
通过 docker-compose 快速部署 Flink 保姆级教程
Apache Flink 是一个开源的流处理框架,用于处理和分析实时数据流。它支持事件驱动的应用和复杂的事件处理(CEP),并且可以处理批处理任务。Flink 提供了高吞吐量、低延迟以及强大的状态管理和容错能力。它可以在各种环境中运行,包括本地集群、云环境和容器化环境(如 Docker 和 Kubernetes)。文末有Flink高吞吐量和低延迟:Flink 能够处理大规模的数据流,同时保持毫秒级的处理延迟。状态管理和容错:Flink 提供了强大的状态管理功能,允许在发生故障时从检查点或保存点恢复作业。原创 2024-04-14 00:09:58 · 1544 阅读 · 2 评论 -
【云原生】Flink on k8s 讲解与实战操作
Flink核心是一个流式的数据流执行引擎,并且能够基于同一个Flink运行时,提供支持流处理和批处理两种类型应用。其针对数据流的分布式计算提供了数据分布,数据通信及容错机制等功能。大数据Hadoop之——实时计算流计算引擎Flink(Flink环境部署)原创 2022-10-05 09:36:27 · 2250 阅读 · 1 评论 -
大数据Hadoop之——Flink CEP(Complex Event Processing:复合事件处理)详解(kafka on window)
文章目录一、概述二、核心组件三、Pattern API1)个体模式(Individual Patterns)1、量词2、条件2)组合模式(Combining Patterns,也叫模式序列)1、事件之间的连续策略2、循环模式中的连续性3)模式组(Group of Pattern)匹配后跳过策略四、Pattern检测五、Flink CEP应用场景六、安装Kafka(window)1)下载kafka2)配置环境变量3)创建相关文件4)修改配置七、Flink CEP实战一、概述**复合事件处理(Comple原创 2022-03-06 16:20:18 · 2461 阅读 · 0 评论 -
大数据Hadoop之——Flink的状态管理和容错机制(checkpoint)
文章目录一、Flink中的状态1)键控状态(Keyed State)1、控件状态特点2、键控状态类型3、状态有效期 (TTL)1)过期数据的清理2)全量快照时进行清理3)增量数据清理4)在 RocksDB 压缩时清理4、键控状态的使用2)算子状态(Operatior State)1、算子状态特点2、算子状态类型3)广播状态 (Broadcast State)二、状态后端(State Backends)1)状态后端分类2)配置方式1、【第一种方式】基于代码方式进行配置2、第二种方式:基于 flink-conf原创 2022-03-03 07:30:00 · 1464 阅读 · 0 评论 -
大数据Hadoop之——Flink中的Window API+时间语义+Watermark
文章目录一、window 概念二、 时间窗口(Time Window)1)滚动窗口(Tumbling Windows)2)滑动窗口(Sliding Windows)3)会话窗口(Session Windows)三、window API四、窗口分配器(window assigner)一、Flink 中的时间语义二、设置 Event Time三、水位线(Watermark)四、watermark 的传递、引入和设定一、window 概念窗口(window)是处理无限流的核心。窗口将流分割成有限大小的“桶”原创 2022-02-27 18:30:00 · 1668 阅读 · 0 评论 -
大数据Hadoop之——Flink DataStream API 和 DataSet API
文章目录一、DataStream API概述一、DataStream API概述DataStream API 得名于特殊的 DataStream 类,该类用于表示 Flink 程序中的数据集合。你可以认为 它们是可以包含重复项的不可变数据集合。这些数据可以是有界(有限)的,也可以是无界(无限)的,但用于处理它们的API是相同的。...原创 2022-02-26 21:42:15 · 2497 阅读 · 0 评论 -
大数据Hadoop之——搭建本地flink开发环境详解(window10)
文章目录一、下载安装IDEA(IDEA2020.2.3破解版)二、搭建本地hadoop环境(window10)三、安装Maven三、新建项目和模块1)新建maven项目2)新建flink模块三、配置IDEA环境(scala)1)下载安装scala插件2)配置scala插件到模块或者全局环境3)创建scala项目4)DataStream API配置1、Maven配置2、示例演示5)Table API & SQL配置1、Maven配置2、示例演示5)HiveCatalog1、Maven配置2、Hadoo原创 2022-02-19 18:15:37 · 3660 阅读 · 2 评论 -
大数据Hadoop之——Flink Table API 和 SQL(单机Kafka)
文章目录一、Table API 和 Flink SQL 是什么二、配置Table依赖(scala版本)三、两种 planner(old & blink)的区别四、API 调用(scala)1)创建表的执行环境(TableEnvironment)2)在 Catalog 中注册表1、表(Table)的概念2、连接到文件系统(Csv 格式)一、Table API 和 Flink SQL 是什么Table API 和 SQL 集成在同一套 API 中。 这套 API 的核心概念是Table,用作查询的原创 2022-02-09 22:13:03 · 2480 阅读 · 0 评论 -
大数据Hadoop之——实时计算流计算引擎Flink(Flink环境部署)
文章目录一、概述一、概述Flink核心是一个流式的数据流执行引擎,并且能够基于同一个Flink运行时,提供支持流处理和批处理两种类型应用。其针对数据流的分布式计算提供了数据分布,数据通信及容错机制等功能。基于流执行引擎,Flink提供了跟多高抽象层的API便于用户编写分布式任务。下面介绍常见的几种API;DataSet API: 对静态数据进行批处理作业,将静态数据抽象成分布式的数据集,用户可以方便的使用Flink提供的各种操作符对分布式数据集进行处理,支持Java,Scala和python;原创 2022-01-08 15:17:35 · 4810 阅读 · 1 评论