- 博客(6)
- 资源 (8)
- 收藏
- 关注
原创 Flink 任务执行流程源码解析
用户提交Flink任务时,通过先后调用transform()——>doTransform()——>addOperator()方法,将map、flatMap、filter、process等算子添加到List
2024-03-17 00:04:50
327
原创 Flink + Hudi 流批一体作业稳定性优化
需要注意的是Boolean类型的参数,默认都为false,如果要开启,直接使用–param_name即可,而不是–param_name true,Hudi中解析参数使用的JCommander,如下图所示,如果Boolean参数后面跟true、false、0、1,都会在遍历参数时错位,导致任务提交失败,报错提示和这种配置方式并不是很友好,很容易让使用者误认为该参数是不可配置的!对于当前分区文件数量问题,写入Hudi任务的并行度会直接影响文件数量,随着并行度的增加,文件数量也会相应增加。这可能会造成资源浪费。
2024-03-17 00:00:10
971
原创 Flink流批一体作业管理平台
随着大数据处理需求的不断增长,流批一体作业管理平台的重要性愈发凸显。本文将介绍如何针对 Flink + Hudi 流批一体任务进行管理,特别针对 Hudi 任务的需求,支持一键启动离线 Compaction 和 Clustering 任务,保证数据湖的稳定运行。
2024-03-16 23:59:05
947
1
原创 Flink on Kubernetes 计算和存储分离落地实践
在这种架构下,将计算和存储解耦,计算部分运行在Kubernetes上,而存储则使用HDFS等分布式存储系统。其中,两种是基于Native Kubernetes部署的,分别有Session模式和Application模式。执行上述命令后,将会从ghcr.io/apache/flink-kubernetes-operator:7fc23a1镜像仓库拉取镜像。构建镜像,在Dockerfile所在的目录中执行以下命令,确保该目录包含用于构建镜像的文件。需要安装Flink客户端,下载flink压缩包,解压即可。
2023-05-23 13:54:01
1008
2
原创 Flink CDC Connectors 2.2源码编译,适配Flink 1.14.2
2.修改flink-table-planner-blink为flink-table-planner;flink-table-runtime-blink为flink-table-runtime。父module先install,这样会保证本地maven仓库中有各个子module的jar包,否则,子module之间有依赖的话,package时会报错。然后再package需要的子module,子module的pom文件需要修改打包方式,最好把依赖都打进jar包中,这样工程中就只需要引入一个。
2023-04-07 13:51:18
808
1
原创 Flink CDC使用Java DataStream API写入Hudi,实时同步业务库
需要源码或者进Flink微信交流群的请+V :zoomake1024在上一篇文章介绍了使用Flink SQL消费Kafka实时入湖的方法,全程都是SQL实现的,但是当处理逻辑复杂时,SQL并不是那么灵活,此时通过编码的方式可以更好的驾驭整个框架。本篇介绍下,如何使用Java DataStream API以编码的方式,通过Flink CDC同步MySQL数据到Hudi,在整个过程中遇到了很多问题,会一并给出解决方案。主要是参考Hudi源码中的HoodieFlinkStreamer来实现的,首先说明POM文件.
2022-07-07 17:40:58
2687
本地调试所需hadoop包,hadoop-common-bin-master,winutils.exe
2022-01-07
Windows一键安装.Net Framework、Visual C++、Direct X、工具
2022-01-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人