- 博客(8)
- 资源 (8)
- 收藏
- 关注
原创 湖仓一体架构下流批协同实践:从Spark批量加速到Flink实时更新
本文介绍了Spark+Flink协同处理大规模历史数据入湖的方案。针对Flink全量导入亿级数据存在的性能瓶颈,采用Spark完成批量历史数据导入,再通过Flink处理增量数据。文章详细分享了Spark配置优化(如并行度调整、内存参数调优)实现15亿数据快速入湖的经验,以及后续小文件合并策略。同时阐述了Flink索引引导启动、任务恢复等关键配置,解决了状态恢复问题。该方案有效平衡了批处理和实时处理的资源需求,为湖仓一体架构下大规模数据处理提供了实践参考。
2025-08-03 09:05:10
972
原创 构建智能灵活的 Ribbon 负载均衡策略
根据服务实例的性能表现动态地分配权重,性能好的实例会被分配更多的请求,而性能差的实例则会逐渐减少请求分配。这就导致在权重轮询策略下,故障机器的服务权重会迅速降低,几乎不再接收请求。而且由于我们的配置是在网关层面,当故障机器恢复后,系统无法自动重新计算权重,使得分配到故障机器的流量很少,其权重也很难再次提升上去。增加这个过滤器的原因在于,无论是使用自定义的负载均衡策略,还是内置的 WeightedResponseTimeRule,都无法自动获取到每个服务实例的总请求次数、异常请求次数以及响应时间等关键参数。
2024-12-13 18:26:33
1141
原创 Flink 任务执行流程源码解析
用户提交Flink任务时,通过先后调用transform()——>doTransform()——>addOperator()方法,将map、flatMap、filter、process等算子添加到List
2024-03-17 00:04:50
431
原创 Flink + Hudi 流批一体作业稳定性优化
需要注意的是Boolean类型的参数,默认都为false,如果要开启,直接使用–param_name即可,而不是–param_name true,Hudi中解析参数使用的JCommander,如下图所示,如果Boolean参数后面跟true、false、0、1,都会在遍历参数时错位,导致任务提交失败,报错提示和这种配置方式并不是很友好,很容易让使用者误认为该参数是不可配置的!对于当前分区文件数量问题,写入Hudi任务的并行度会直接影响文件数量,随着并行度的增加,文件数量也会相应增加。这可能会造成资源浪费。
2024-03-17 00:00:10
1290
原创 Flink流批一体作业管理平台
随着大数据处理需求的不断增长,流批一体作业管理平台的重要性愈发凸显。本文将介绍如何针对 Flink + Hudi 流批一体任务进行管理,特别针对 Hudi 任务的需求,支持一键启动离线 Compaction 和 Clustering 任务,保证数据湖的稳定运行。
2024-03-16 23:59:05
1374
1
原创 Flink on Kubernetes 计算和存储分离落地实践
在这种架构下,将计算和存储解耦,计算部分运行在Kubernetes上,而存储则使用HDFS等分布式存储系统。其中,两种是基于Native Kubernetes部署的,分别有Session模式和Application模式。执行上述命令后,将会从ghcr.io/apache/flink-kubernetes-operator:7fc23a1镜像仓库拉取镜像。构建镜像,在Dockerfile所在的目录中执行以下命令,确保该目录包含用于构建镜像的文件。需要安装Flink客户端,下载flink压缩包,解压即可。
2023-05-23 13:54:01
1341
2
原创 Flink CDC Connectors 2.2源码编译,适配Flink 1.14.2
2.修改flink-table-planner-blink为flink-table-planner;flink-table-runtime-blink为flink-table-runtime。父module先install,这样会保证本地maven仓库中有各个子module的jar包,否则,子module之间有依赖的话,package时会报错。然后再package需要的子module,子module的pom文件需要修改打包方式,最好把依赖都打进jar包中,这样工程中就只需要引入一个。
2023-04-07 13:51:18
1173
1
原创 Flink CDC使用Java DataStream API写入Hudi,实时同步业务库
需要源码或者进Flink微信交流群的请+V :zoomake1024在上一篇文章介绍了使用Flink SQL消费Kafka实时入湖的方法,全程都是SQL实现的,但是当处理逻辑复杂时,SQL并不是那么灵活,此时通过编码的方式可以更好的驾驭整个框架。本篇介绍下,如何使用Java DataStream API以编码的方式,通过Flink CDC同步MySQL数据到Hudi,在整个过程中遇到了很多问题,会一并给出解决方案。主要是参考Hudi源码中的HoodieFlinkStreamer来实现的,首先说明POM文件.
2022-07-07 17:40:58
3102
Windows一键安装.Net Framework、Visual C++、Direct X、工具
2022-01-07
本地调试所需hadoop包,hadoop-common-bin-master,winutils.exe
2022-01-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人