Flink
文章平均质量分 87
王小工
java研发工程师、架构师、云计算、大数据、云原生
展开
-
Flink SQL 基础操作
使用CREATE TABLE语句定义输入数据源,包括其schema、存储格式(如CSV、JSON等)以及连接器的配置(如Kafka、FileSystem等)。示例:id STRING,age INT,) WITH (原创 2024-08-09 18:47:32 · 627 阅读 · 0 评论 -
Flink windows wsl安装ubuntu 运行flink
【代码】Flink windows wsl安装ubuntu 运行flink。原创 2024-08-09 08:39:21 · 1052 阅读 · 0 评论 -
Flink 1.20 最新版本 Windows本地运行
Apache Flink 1.20 是 Flink 的一个较新版本,它带来了许多改进和新功能,如物化表、统一的检查点文件合并机制等。然而,关于 Flink 1.20 在 Windows 本地运行的具体步骤,虽然 Flink 本身是跨平台的,但官方文档和社区资源可能更多地关注于 Linux 环境下的部署和配置。原创 2024-08-08 10:55:41 · 1478 阅读 · 0 评论 -
Flink Maven 依赖
定义:Apache Flink ML是Apache Flink的扩展库,提供了一套全面的机器学习(ML)API和基础设施,旨在简化机器学习管道的构建过程。开发者:Apache软件基金会编程语言:支持Python和Java,方便不同编程背景的开发者使用。原创 2024-08-05 18:58:25 · 955 阅读 · 0 评论 -
flink 配置表
虽然 Flink 本身没有一个名为“配置表”的明确术语,但配置文件 flink-conf.yaml 和其他相关配置文件可以视为 Flink 的配置表,它们包含了 Flink 集群和作业运行所需的各种配置项。这些配置项涵盖了从主机和端口设置到内存管理、并行度调整、状态后端和检查点配置等多个方面。原创 2024-07-11 08:11:12 · 565 阅读 · 0 评论 -
flink 大数据处理资源分配
Flink是一个用于无界和有界数据流处理的分布式计算框架,它通过集群模式部署,可以充分利用集群中的CPU、内存、磁盘和网络IO等资源。Flink的资源分配主要涉及到任务管理器(TaskManager)和作业管理器(JobManager)的内存和CPU资源配置,以及作业的并行度设置。原创 2024-07-10 19:39:29 · 733 阅读 · 0 评论 -
Flink 窗口触发器(Trigger)(二)
用户可以通过实现 Trigger 接口来创建自定义触发器。自定义触发器可以基于复杂的逻辑来决定何时触发窗口的计算。onElement(element, timestamp, window, ctx): 当元素被添加到窗口时调用。(time, window, ctx, out): 当窗口的事件时间到达时调用。(time, window, ctx, out): 当窗口的处理时间到达时调用。onMerge(other): 当两个窗口合并时调用(例如,在会话窗口中使用)。canMerge。原创 2024-07-03 19:59:20 · 1571 阅读 · 1 评论 -
Flink 窗口触发器(Trigger)(一)
Flink的窗口触发器(Trigger)是流处理中一个非常关键的概念,它定义了窗口何时被触发并决定触发后的行为(如进行窗口数据的计算或清理)。原创 2024-07-03 19:26:13 · 1671 阅读 · 0 评论 -
Flink Window DEMO 学习
该文档演示了fink windows的操作DEMO。原创 2024-06-29 16:44:03 · 439 阅读 · 0 评论 -
Flink 反压
Flink反压是一个在实时计算应用中常见的问题,特别是在流式计算场景中。原创 2024-06-19 18:50:25 · 1290 阅读 · 0 评论 -
Flink 计数器Accumulator
通常,不需要直接定义 Accumulator 接口的实现,因为 Flink 已经为提供了一些内置的 Accumulator 类型,如 IntCounter, LongCounter, DoubleCounter 等。但如果需要自定义的聚合逻辑,可以实现 Accumulator 接口。原创 2024-06-18 20:00:58 · 636 阅读 · 0 评论 -
Flink Kafka获取数据写入到MongoDB中 样例
Apache Flink 是一个流处理和批处理的开源框架,它允许从各种数据源(如 Kafka)读取数据,处理数据,然后将数据写入到不同的目标系统(如 MongoDB)。原创 2024-06-18 19:50:54 · 1042 阅读 · 0 评论 -
flink 从monggo读取PB级全部数据根据分组统计数据 样例
【代码】flink 从monggo读取PB级全部数据根据分组统计数据 样例。原创 2024-06-18 19:39:59 · 740 阅读 · 0 评论 -
Flink 命令行提交、展示和取消作业
这些命令应在 Flink 安装目录的命令行终端中执行。每个命令的具体参数和用法可以通过在命令后添加 --help 来查看详细的帮助信息,例如:./bin/flink run --help。以上命令假设你在Flink的命令行工具目录下执行,并且你有正确的权限和配置。如果你的Flink集群部署在远程服务器上,你可能需要通过SSH或其他方式连接到远程服务器,然后执行上述命令。这里,run是提交作业的命令,-c后面跟着的是主类的全路径,接着是jar文件的路径和可选的作业参数。原创 2024-06-12 08:15:51 · 840 阅读 · 0 评论 -
Flink mongo & Kafka
Apache Flink 是一个流处理和批处理的开源平台,用于在分布式环境中处理无界和有界数据流。它提供了用于数据处理的数据流 API(DataStream API)和表 API(Table API),并可以与各种外部数据源和存储系统进行交互。MongoDB 是一个基于文档的 NoSQL 数据库,它提供了高性能、可扩展和灵活的数据存储。而 Apache Kafka 是一个流处理平台,它允许发布和订阅记录流,类似于消息队列或企业消息系统。原创 2024-06-07 18:56:45 · 691 阅读 · 0 评论 -
Flink 容错
Flink的容错机制是确保数据流应用程序在出现故障时能够恢复一致状态的关键组成部分。其核心是通过创建分布式数据流和操作符状态的一致快照来实现,这种快照被称为检查点(Checkpoint)。原创 2024-06-05 18:22:50 · 961 阅读 · 1 评论 -
flink 状态
使用Flink的Stateful Functions API(如KeyedProcessFunction、ProcessFunction等)来定义和访问状态。通过getRuntimeContext().getState(…)或特定的状态描述符(如ValueStateDescriptor)来获取状态。Broadcast State用于保持所有子任务状态相同,确保当数据被广播到所有下游并行任务时,这些任务可以访问相同的状态数据。在这些任务中广播状态用于保持所有子任务状态相同。原创 2024-06-04 11:06:39 · 860 阅读 · 1 评论 -
Flink Watermark详解
Watermark 是用于处理流数据中事件时间(event time)乱序情况的重要机制。在流处理中,数据往往不是按照它们实际发生的时间顺序到达的,这可能是由于网络延迟、系统处理延迟或其他因素导致的。为了能够在这种乱序环境中正确地执行基于时间的操作(如时间窗口聚合),Flink 引入了 Watermark 的概念。Watermark 是一个特殊的标记,它表示“在此时间戳之前的数据应该都已经到达了”。原创 2024-06-04 08:03:12 · 1455 阅读 · 2 评论 -
flink 事件处理 CEP 详解
CEP(Complex Event Processing,复杂事件处理)是一个基于Flink Runtime构建的复杂事件处理库,它允许用户定义复杂的模式来检测和分析事件流中的复杂事件。原创 2024-05-30 18:11:36 · 1146 阅读 · 1 评论 -
flink 事件处理 CEP
CEP,即复杂事件处理,是一种可以在事件流中检测到特定的事件组合并进行处理的技术。它可以将简单事件通过一定的规则匹配组合成复杂事件,并基于这些复杂事件进行转换处理,得到想要的结果进行输出。原创 2024-05-30 17:33:52 · 1046 阅读 · 0 评论 -
flink 操作mongodb的例子
flink mongo从一个Collection获取数据然后插入到另外一个Collection中。原创 2024-05-30 08:54:44 · 1152 阅读 · 0 评论 -
Flink 数据源
在 Flink 中,数据源(Source)是其中一个核心组件,负责从各种来源读取数据供 Flink 程序处理。原创 2024-05-27 22:53:08 · 1289 阅读 · 0 评论 -
flink ExecutionEnvironment
在Apache Flink中,获取执行环境可以通过调用ExecutionEnvironment类的静态方法来实现。原创 2024-05-27 22:24:22 · 1065 阅读 · 0 评论 -
Flink 部署执行模式
Apache Flink 提供了多种部署模式,以适应不同的环境和需求。原创 2024-05-22 18:42:59 · 1566 阅读 · 0 评论 -
Flink parallelism 和 Slot 介绍
并行度(Parallelism):指的是一个算子(Operator)或任务(Task)的并行实例数量。换句话说,它决定了 Flink 集群中同时处理输入数据的子任务数量。Slot:在 Flink 中,一个 Slot 可以看作是一个 TaskManager 上的一个资源子集,用于执行一个或多个 Task(任务)。每个 TaskManager 可以拥有多个 Slot,而每个 Slot 可以执行一个或多个 Task。原创 2024-05-17 08:28:04 · 655 阅读 · 1 评论 -
Flink Time 详解
时间是一个核心概念,特别是在处理流数据和窗口计算时。Flink 提供了三种时间类型来处理流数据中的时间属性:Event Time、Processing Time 和 Ingestion Time。在选择使用哪种时间类型时,需要根据具体的应用场景和需求来决定。例如,如果需要处理延迟和乱序数据,并且希望结果能够反映数据的实际产生时间,那么应该选择 Event Time。如果对时间的要求不那么严格,或者处理的数据本身就是有序的,那么可以选择 Processing Time 或 Ingestion Time。原创 2024-05-16 09:21:01 · 368 阅读 · 0 评论 -
Flink中的Windows
如果想要实现自定义的窗口(Window),需要实现 WindowAssigner 接口。WindowAssigner 负责将元素分配给窗口,并且定义了窗口的边界。下面是一个自定义窗口分配器(WindowAssigner)的示例,该分配器基于元素计数来定义窗口。这个示例演示了一个简单的翻滚计数窗口(类似于 TumblingCountWindows),可以根据需要扩展它以创建更复杂的窗口策略。原创 2024-05-16 08:52:55 · 1063 阅读 · 0 评论 -
Flink 算子
使用用户定义的 Partitioner 为每个元素选择目标任务。原创 2024-05-09 08:39:06 · 775 阅读 · 0 评论 -
Flink DataSink介绍
官网:https://nightlies.apache.org/flink/flink-docs-release-1.19/zh/docs/connectors/datastream/overview/原创 2024-05-08 17:39:02 · 779 阅读 · 0 评论 -
Flink DataSource介绍
Flink中的Data Source用于定义数据输入的来源。将数据源添加到Flink执行环境中,可以创建一个数据流。Flink支持多种类型的数据源,包括内置数据源和自定义数据源。Flink允许用户通过实现SourceFunction接口或扩展RichParallelSourceFunction来自定义数据源。常见的自定义数据源包括从第三方系统连接器(如Kafka、RabbitMQ、MongoDB等)中读取数据。原创 2024-05-08 17:03:12 · 868 阅读 · 0 评论