flink
文章平均质量分 62
flink 学习
优惠券已抵扣
余额抵扣
还需支付
¥9.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
贾斯汀玛尔斯
点赞、收藏加关注,追fun不迷路
展开
-
Flink中三种模式:YARN Session 模式、YARN Per-Job 模式和 YARN Application 模式提交任务命令
在 Apache Flink 中,YARN 提供了多种模式来提交和管理作业,每种模式都有其独特的特点和适用场景。主要有以下三种模式:YARN Session 模式、YARN Per-Job 模式和 YARN Application 模式。原创 2024-07-30 17:46:36 · 221 阅读 · 0 评论 -
flink standakone提交任务参数
在 Apache Flink 中,提交独立(Standalone)任务时,可以通过命令行工具flink run来指定各种参数。原创 2024-07-30 16:49:17 · 101 阅读 · 0 评论 -
flink on yarn 中的flink-conf.yaml参数
Flink TaskManager 的堆内存的百分比,小于此比例则 Flink 会在 YARN 上启动一个附加的非堆外存储容器。修改配置后,请确保将修改后的。: 如果 Flink TaskManager 的堆内存小于此值,则 Flink 会在 YARN 上启动一个附加的非堆外存储容器。是 Flink 配置文件,用于配置 Flink 应用程序在 YARN 上的运行。: 指定每个 TaskManager 的内存大小,用于 Flink 操作和状态。文件中的参数,你可以调整 Flink 集群的行为和性能。原创 2023-07-19 18:18:13 · 1522 阅读 · 0 评论 -
湖仓管理系统 Amoro部署
Apache Amoro(incubating) 是一个构建在 Apache Iceberg 等开放数据湖表格之上的湖仓管理系统,提供了一套可插拔的数据自优化机制和管理服务,旨在为用户带来开箱即用的湖仓使用体验。Amoro 的愿景是依托于 Apache Iceberg、Apache Paimon 等新型数据湖表格式的基础功能,持续打磨湖仓管理系统的定位和开箱即用的功能,为大数据产品和用户带来:降低湖仓应用门槛,融入现代数据栈,为围绕湖仓构建的大数据产品极瘦身,让湖仓不再成为互联网企业的专宠。原创 2024-04-02 14:08:04 · 195 阅读 · 0 评论 -
Flink 支持三种时间语义
Processing Time(处理时间)Event Time(事件时间) Ingestion Time(摄入时间)原创 2023-11-13 17:14:59 · 530 阅读 · 0 评论 -
kafka ack确认机制
要注意,在acks=all模式下,如果Kafka集群的副本因某种原因无法满足确认要求,写入操作可能会失败,因此需要在选择确认级别时进行权衡。在这个级别下,生产者发送消息后会等待所有分区副本都确认消息已成功写入到它们的本地日志,然后才认为消息已成功发送。在这个级别下,生产者发送消息后会等待分区的领导者(leader)确认消息已成功写入到其本地日志。生产者发送消息后不会等待任何确认,直接将消息添加到分区的副本中,并认为消息已成功发送。在这种模式下,如果发生故障或错误,生产者将不会知道,也不会重试发送消息。原创 2023-09-18 11:11:12 · 1534 阅读 · 0 评论 -
Kafka Shell命令交互
Kafka提供了一个命令行工具,用于管理和与Kafka集群交互。这个命令行工具通常称为Kafka Shell,它允许您执行各种操作,如创建主题、发送和消费消息、查看主题列表等。原创 2023-09-18 10:11:00 · 647 阅读 · 0 评论 -
Flink CEP(Complex Event Processing)库
Flink CEP(Complex Event Processing)库是 Apache Flink 的一个扩展,用于处理复杂事件流。它允许您在数据流中定义模式,然后检测和处理符合这些模式的事件序列。原创 2023-08-08 15:07:28 · 606 阅读 · 0 评论 -
Flink 两阶段提交(Two-Phase Commit)协议
flink两阶段提交原创 2023-08-08 14:57:58 · 2200 阅读 · 1 评论 -
yarn-session下的flink应用的提交与关闭
flink应用的提交与关闭原创 2023-07-26 10:41:29 · 912 阅读 · 0 评论 -
flink on yarn 的yarn.jobmanager.containers参数使用
在 Flink on YARN 中,Flink 集群可以以两种模式运行:独立集群模式(Standalone Cluster Mode)和会话模式(Session Mode)。参数用于配置在 YARN 上启动 Flink 集群时,JobManager 使用的容器数量。:在会话模式下,Flink 首先启动一个长时间运行的会话(Session),然后可以在该会话中提交和执行多个作业。根据实际情况,你可以调整容器的数量以满足集群的需求。:在独立集群模式下,Flink 在 YARN 上作为一个独立的应用程序运行。原创 2023-07-19 15:29:39 · 613 阅读 · 0 评论 -
flink on yarn的会话模式中yarn-session.sh 参数
是 Apache Flink 在 YARN(Hadoop 的资源管理系统)上启动 Flink 会话(Session)的脚本。通过这个脚本,你可以在 YARN 上提交 Flink 任务,并在一个长时间运行的会话中执行多个作业。: 指定要在 YARN 上启动的 TaskManager 容器数量,也就是执行 Flink 任务的资源数量。: 指定 JobManager 容器的内存大小,以MB为单位。: 指定每个 TaskManager 容器的内存大小,以MB为单位。: 启动作业时可以指定特定的应用程序选项。原创 2023-07-19 15:28:41 · 1183 阅读 · 0 评论 -
flink任务的subtask中 scheduled状态的解决方案
Flink 集群资源紧张:当提交了一个 Flink 任务,但集群上的资源(如 TaskManager 插槽)暂时不足时,任务将处于 “scheduled” 状态,等待合适的资源来运行。:检查任务之间的依赖关系,优化任务的拓扑结构,使得任务之间的依赖关系尽可能地减少等待时间。前置任务正在执行:如果任务依赖于其他任务的输出数据,并且这些前置任务正在执行,那么当前任务可能会处于 “scheduled” 状态,直到所有依赖的任务都完成。解决这种状态的关键在于确保有足够的资源可用,并检查任务之间的依赖关系。原创 2023-07-19 15:27:05 · 743 阅读 · 0 评论 -
flink-conf.yaml的参数
换句话说,并行度如果小于等于集群中可用slot的总数,程序是可以正常执行的,因为slot不一定要全部占用,有十分力气可以只用八分;通过调整slot的数量,我们就可以控制子任务之间的隔离级别。而后者在同一个JVM进程中运行的任务,将共享TCP连接和心跳消息,也可能共享数据集和数据结构,这就减少了每个任务的运行开销,在降低隔离级别的同时提升了性能。如果一个TaskManager只有一个slot,那将意味着每个任务都会运行在独立的JVM中(当然,该JVM可能是通过一个特定的容器启动的);原创 2023-07-07 14:52:36 · 1011 阅读 · 0 评论 -
flink 分词程序代码(批处理和实时)
在工程根目录下新建一个 input 文件夹,并在下面创建文本文件 words.txt。BatchWordCount 程序代码。原创 2023-05-08 09:59:39 · 164 阅读 · 0 评论 -
Flink on yarn详解
Flink提供在Yarn上两种运行模式:Session-Cluster和Per-Job-Cluster,其中Session-Cluster的资源在启动集群时就定义完成,后续所有作业的提交都共享该资源,作业可能会互相影响,因此比较适合小规模短时间运行的作业,对于Per-Job-Cluster而言,所有作业的提交都是单独的集群,作业之间的运行不受影响(可能会共享CPU计算资源),因此比较适合大规模长时间运行的作业。原创 2022-09-27 20:01:05 · 1083 阅读 · 0 评论 -
flink分流
分流原创 2022-04-21 15:26:43 · 1566 阅读 · 0 评论 -
Flink CDC和FlinkX与数据湖
数据传输工具FlinkX和Flink CDC是目前最主流的工具,其中,Flink CDC 2.0更加友好地支持数据湖原创 2022-02-22 10:23:22 · 2235 阅读 · 0 评论 -
flink sql读取kafka数据写入数据湖Apache Hudi
创建生产者[bigdata@bigdata1 bin]$ sh kafka-console-producer.sh --broker-list bigdata1:9092,bigdata2:9092,bigdata3:9092 --topic test_topic>{"id":13,"name":"justin"}创建kafka表CREATE TABLE user_behavior ( id BIGINT, name STRING) WITH ( 'connecto.原创 2022-02-15 15:49:41 · 819 阅读 · 0 评论 -
Flink-SQL实现kafka处理后写入kafka
基本信息kafka版本 1.13.2topic 原始数据topic user_behavior 输出数据topic after_binlog读取kafka原始数据CREATE TABLE user_behavior ( id BIGINT, name STRING, flag STRING) WITH ( 'connector.type' = 'kafka', -- 使用 kafka connector 'co原创 2021-10-13 16:10:00 · 1994 阅读 · 0 评论 -
使用Flink SQL插入数据到Apache Hudi
利用Flink SQL插入数据到数据湖Hudi中原创 2022-02-08 16:26:31 · 924 阅读 · 0 评论 -
Flinkx同步binlog日志到kafka
1、前置需要安装maven、java8、配置好github相关参数2、Clone项目到本地git clone https://github.com/liukunyuan/flinkx.git3、安装额外的jar包1)、cd flinkx/bin2)、执行sh ./install_jars.sh(windows执行install_jars.bat脚本)4、打包1)、回到flinkx目录:cd …2)、执行打包命令:mvn clean package -Dmaven.test.skip=tru原创 2021-09-28 17:10:47 · 576 阅读 · 0 评论 -
Flink BucketingSink HDFS报错
Flink的lib目录下传入flink-shaded-hadoop-3-uber-3.1.1.7.2.1.0-327-9.0.jarMaven地址为<!-- https://mvnrepository.com/artifact/org.apache.flink/flink-shaded-hadoop-3-uber --><dependency> <groupId>org.apache.flink</groupId> <artifac原创 2021-04-16 10:01:33 · 252 阅读 · 0 评论 -
Flink sink HDFS的三个方法
package batch;import java.util.Properties;import java.util.concurrent.TimeUnit;import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.api.common.serialization.SimpleStringEncoder;import org.apache.flink.core.fs.Path;import原创 2021-04-16 12:12:05 · 1815 阅读 · 0 评论