Flink湖仓一体-CSDN博客

原创湖仓一体架构下流批协同实践：从Spark批量加速到Flink实时更新

本文介绍了Spark+Flink协同处理大规模历史数据入湖的方案。针对Flink全量导入亿级数据存在的性能瓶颈，采用Spark完成批量历史数据导入，再通过Flink处理增量数据。文章详细分享了Spark配置优化（如并行度调整、内存参数调优）实现15亿数据快速入湖的经验，以及后续小文件合并策略。同时阐述了Flink索引引导启动、任务恢复等关键配置，解决了状态恢复问题。该方案有效平衡了批处理和实时处理的资源需求，为湖仓一体架构下大规模数据处理提供了实践参考。

2025-08-03 09:05:10 972

原创构建智能灵活的 Ribbon 负载均衡策略

根据服务实例的性能表现动态地分配权重，性能好的实例会被分配更多的请求，而性能差的实例则会逐渐减少请求分配。这就导致在权重轮询策略下，故障机器的服务权重会迅速降低，几乎不再接收请求。而且由于我们的配置是在网关层面，当故障机器恢复后，系统无法自动重新计算权重，使得分配到故障机器的流量很少，其权重也很难再次提升上去。增加这个过滤器的原因在于，无论是使用自定义的负载均衡策略，还是内置的 WeightedResponseTimeRule，都无法自动获取到每个服务实例的总请求次数、异常请求次数以及响应时间等关键参数。

2024-12-13 18:26:33 1141

原创 Flink 任务执行流程源码解析

用户提交Flink任务时，通过先后调用transform()——>doTransform()——>addOperator()方法，将map、flatMap、filter、process等算子添加到List

2024-03-17 00:04:50 431

原创 Flink + Hudi 流批一体作业稳定性优化

需要注意的是Boolean类型的参数，默认都为false，如果要开启，直接使用–param_name即可，而不是–param_name true，Hudi中解析参数使用的JCommander，如下图所示，如果Boolean参数后面跟true、false、0、1，都会在遍历参数时错位，导致任务提交失败，报错提示和这种配置方式并不是很友好，很容易让使用者误认为该参数是不可配置的！对于当前分区文件数量问题，写入Hudi任务的并行度会直接影响文件数量，随着并行度的增加，文件数量也会相应增加。这可能会造成资源浪费。

2024-03-17 00:00:10 1290

原创 Flink流批一体作业管理平台

随着大数据处理需求的不断增长，流批一体作业管理平台的重要性愈发凸显。本文将介绍如何针对 Flink + Hudi 流批一体任务进行管理，特别针对 Hudi 任务的需求，支持一键启动离线 Compaction 和 Clustering 任务，保证数据湖的稳定运行。

2024-03-16 23:59:05 1374 1

原创 Flink on Kubernetes 计算和存储分离落地实践

在这种架构下，将计算和存储解耦，计算部分运行在Kubernetes上，而存储则使用HDFS等分布式存储系统。其中，两种是基于Native Kubernetes部署的，分别有Session模式和Application模式。执行上述命令后，将会从ghcr.io/apache/flink-kubernetes-operator:7fc23a1镜像仓库拉取镜像。构建镜像，在Dockerfile所在的目录中执行以下命令，确保该目录包含用于构建镜像的文件。需要安装Flink客户端，下载flink压缩包，解压即可。

2023-05-23 13:54:01 1341 2

原创 Flink CDC Connectors 2.2源码编译，适配Flink 1.14.2

2.修改flink-table-planner-blink为flink-table-planner；flink-table-runtime-blink为flink-table-runtime。父module先install，这样会保证本地maven仓库中有各个子module的jar包，否则，子module之间有依赖的话，package时会报错。然后再package需要的子module，子module的pom文件需要修改打包方式，最好把依赖都打进jar包中，这样工程中就只需要引入一个。

2023-04-07 13:51:18 1173 1

原创 Flink CDC使用Java DataStream API写入Hudi，实时同步业务库

需要源码或者进Flink微信交流群的请+V ：zoomake1024在上一篇文章介绍了使用Flink SQL消费Kafka实时入湖的方法，全程都是SQL实现的，但是当处理逻辑复杂时，SQL并不是那么灵活，此时通过编码的方式可以更好的驾驭整个框架。本篇介绍下，如何使用Java DataStream API以编码的方式，通过Flink CDC同步MySQL数据到Hudi，在整个过程中遇到了很多问题，会一并给出解决方案。主要是参考Hudi源码中的HoodieFlinkStreamer来实现的，首先说明POM文件.

2022-07-07 17:40:58 3102

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

u014519384的博客

原创湖仓一体架构下流批协同实践：从Spark批量加速到Flink实时更新

原创构建智能灵活的 Ribbon 负载均衡策略

原创 Flink 任务执行流程源码解析

原创 Flink + Hudi 流批一体作业稳定性优化

原创 Flink流批一体作业管理平台

原创 Flink on Kubernetes 计算和存储分离落地实践

原创 Flink CDC Connectors 2.2源码编译，适配Flink 1.14.2

原创 Flink CDC使用Java DataStream API写入Hudi，实时同步业务库

扩展屏幕必用工具DisplayFusion

flink-connector-mysql-cdc-2.2

chrome视频下载工具VideoDownloadHelper，无广告

Windows一键安装.Net Framework、Visual C++、Direct X、工具

SecureCRT + SecureFX 8.1

本地调试所需spark-x.x.x-bin-hadoop包

本地调试所需hadoop包，hadoop-common-bin-master，winutils.exe

Java JDK 1.8 64位 Windows

空空如也