自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

hello.reader

按兴趣及研究,随便编写

  • 博客(1459)
  • 资源 (3)
  • 收藏
  • 关注

原创 写给生产环境的 Flink 内存配置Process Memory、TaskManager 组件拆解与场景化调优

Flink内存配置指南:核心概念与场景化调优 摘要: 本文系统讲解Flink内存配置的关键要点。首先区分Total Flink Memory和Total Process Memory两种配置方式,并强调非本地执行时必须选择其中一种。其次剖析JVM参数的计算逻辑,指出排查OOM时应关注MaxDirectMemorySize而非仅调整Xmx。针对TaskManager详细拆解各内存组件,特别强调Task Heap、Managed Memory和Network Memory的重要性。最后提供不同部署场景(Stan

2026-01-28 13:43:48 348

原创 Flink JobManager 内存配置指南别让“控制面”先 OOM

Flink JobManager的内存配置主要涉及JVM Heap、Off-heap、Metaspace和JVM Overhead四个部分。Heap用于框架和用户代码,Off-heap覆盖网络通信等场景,Overhead不足易导致容器被Kill。推荐优先配置总进程内存(jobmanager.memory.process.size),复杂场景可细化Heap/Off-heap。典型问题包括Heap OOM(加heap.size)、Direct OOM(加off-heap.size)和容器OOMKille

2026-01-28 13:37:57 527

原创 Flink TaskManager 内存配置从“总量”到“组件”,把资源用在刀刃上

本文系统解析了 Flink TaskManager 内存的组成结构与配置策略。内存分为进程总内存(包含 Flink 应用内存和 JVM 开销)和 Flink 总内存(含堆内存、托管内存和直接内存)。提供了两种配置路线:总量配置法(推荐)和显式配置法(针对特定场景),并详细说明了各内存组件的调节方法,包括任务堆内存、托管内存、网络内存等关键参数。针对常见的 OOM 问题,给出了诊断思路和调优建议,强调应根据作业特性合理分配内存资源,特别关注 RocksDB、Python UDF 等特殊场景的内存需求。最后提供

2026-01-28 13:34:02 319

原创 Flink 进程三种配置方式、JVM 参数映射与常见踩坑

Flink 跑在 JVM 上,但它不是“随便给个 -Xmx 就完事”。为了把 TaskManager/JobManager 的各类内存(堆、直接内存、元空间、框架开销、网络缓冲、Managed Memory 等)管得更稳,Flink 从较新的内存模型开始,允许你用“总量”或“组件”两种思路去声明资源,并在不满足约束时直接拒绝启动,避免线上“跑着跑着 OOM、还找不到原因”。这套内存配置模型对 TaskManager 从 1.10 起生效、对 JobManager 从 1.11 起生效。

2026-01-28 11:44:21 485

原创 Flink 2.0 从 flink-conf.yaml 到 config.yaml 的正确打开方式(含迁移与最佳实践)

注意:因为旧解析器把所有值都当字符串,迁移出来的很多值会带引号。它们是“进程总内存”,Flink 会在里面再切分 heap、off-heap、network、managed 等。如果你用的是会被系统清理的临时目录,可能导致一次“删缓存”引发一次“重恢复”,性能直接跳水。这套做法适合“平台化”:业务方写作业时不一定每个都手动配置 checkpoint,集群侧先兜住。核心思路:外部系统抖一下(Kafka、ES、DB)别把你作业直接判死刑,但也别无限重启打爆依赖。,这是迁移后最常见的坑之一。

2026-01-26 16:43:33 720

原创 Flink on Hadoop YARN 从 0 到可上线的 Session / Application 部署指南

Flink on YARN 运行机制与最佳实践摘要: Flink在YARN上运行时,JobManager和TaskManager都以YARN容器形式运行。生产环境推荐使用Application模式实现作业隔离,通过yarn.provided.lib.dirs预传依赖提升效率。关键配置包括正确设置HADOOP_CLASSPATH、控制资源分配(vcores/slots)以及处理依赖冲突(yarn.classpath.include-user-jar)。高可用场景需保持默认cluster-id,避免手动修改。网

2026-01-26 13:41:16 695

原创 Flink 2.x 部署与扩展能力Standalone / Docker / Kubernetes(Standalone & Native)+ HiveModule + OpenAI 推理函

本文系统介绍了Apache Flink的多种部署方式及关键配置要点。首先解析了Flink三大核心组件(Client、JobManager、TaskManager)的职责,区分了Session和Application两种集群模式的特点与适用场景。重点讲解了Standalone、Docker和Kubernetes三种部署方案的具体实现,包括本地快速启动、容器化部署及K8s原生集成。特别强调了生产环境中的高可用配置、资源隔离、日志排障等关键问题,并提供了Java兼容性、工作目录配置等实用建议。最后还提及了Hive

2026-01-26 11:31:26 593

原创 Flink 2.2 从本地 Standalone 到 Docker/Kubernetes,把 Hive 批流打通,并在 SQL 里接入 OpenAI 推理

Flink集群部署模式与优化实践 Flink集群包含Client、JobManager和TaskManager等核心角色,支持Session和Application两种部署模式。Session模式适合资源共享,而Application模式提供更好的隔离性。在Java版本选择上,Flink 2.0+推荐Java 17,但需注意模块化带来的反射问题。 部署方式包括: Standalone:快速启动但资源管理原始,支持ZooKeeper实现HA Docker:通过容器化实现环境复制,建议使用Compose管理依赖

2026-01-25 16:14:14 783

原创 Flink 2.2 Docker 部署Session / Application / SQL Client 一把梭(含 Compose、插件、连接器与踩坑点)

本文介绍了在Docker中运行Flink的三种方式:Session集群、Application集群和SQL Client。重点讲解了如何使用Docker Compose快速部署Flink集群,包括Session模式(常用)、SQL Client模式和Application模式(隔离性更强)。文章还详细说明了三种配置方式:动态参数、环境变量和挂载配置文件,并特别强调了连接器JAR包必须同时在JobManager/TaskManager和SQL Client中部署的关键注意事项。最后,作者提醒了SQL Clie

2026-01-25 16:07:59 712

原创 Flink Working Directory(FLIP-198)稳定本地恢复、RocksDB 目录与进程重启“不丢缓存”的正确姿势

在生产环境里,Flink 的“本地目录”经常被大家混用:io.tmp.dirs、RocksDB 目录、Blob、local state、甚至还有各种临时文件。结果就是:TaskManager 一重启,缓存全没了、local recovery 失效、RocksDB 重新拉远端 state,恢复时间暴涨。FLIP-198 引入的 Working Directory(工作目录)就是为了解决这个“进程重启后依然可恢复本地工件”的问题,它把“可恢复的本地工件”统一放到一个可控、可复用的目录里。

2026-01-24 11:39:39 558

原创 Flink Standalone 从 0 到可运维的 Session/HA 集群模板(附配置清单)

很多人第一次用 Flink Standalone(独立集群)时,能跑起来不难:`start-cluster.sh` 一执行就有 Web UI。但一旦进入“线上可运维”阶段,就会遇到一堆现实问题:端口冲突、内存抖动、Checkpoint 不稳、日志打爆磁盘、HA 切主失败、连接器 jar 冲突……这篇文章给你一套可直接落地的 Standalone 生产模板:包含 Session Mode 与可选 HA(ZooKeeper),以及必须要做的端口/资源/日志/Checkpoint/目录规划。照着改值即可上线。

2026-01-24 11:36:32 449

原创 Flink Standalone 本地一键起集群、Session/Application 两种模式、HA 高可用与排障清单

Standalone(独立部署)是 Flink 最“原始”的运行方式:JobManager、TaskManager 都是操作系统上的进程(JVM),不依赖 Kubernetes/YARN 这类资源调度器。它的优点是简单、可控、适合本地/测试/小规模集群;缺点也很明显:进程挂了要你自己拉起来,资源扩缩容也要你手工管理。

2026-01-24 11:33:11 562

原创 Flink Java 版本兼容性与 JDK 模块化(Jigsaw)踩坑11 / 17 / 21 怎么选、怎么配、怎么稳

Flink 对不同 Java 版本的支持情况如下:推荐生产环境使用 Java 17(2.0.0起默认支持),Java 11 可兼容但需谨慎测试,Java 21 仅实验性支持。特别注意 Hive 和 HBase 1.x 连接器在 Java 11/17/21 上均未测试验证。由于 Java 16+ 的模块化限制,需通过 env.java.opts.all 追加 --add-opens 参数解决反射问题,且不能删除默认配置。升级时需重点验证序列化兼容性和状态恢复,避免常见错误如 InaccessibleObjec

2026-01-24 11:30:15 449

原创 Flink 部署组件拆解、参考架构、Application vs Session 选型,以及生产落地 Checklist

Flink 很“万能”,同一套计算逻辑既能跑在本地 Standalone,也能跑在 YARN / Kubernetes;既能做 Session 多租共享,也能做 Application 单应用隔离。选择越多,越容易踩坑:到底部署时哪些组件是“必须的”?Application Mode 和 Session Mode 什么时候选?高可用、Checkpoint、Metrics、外部系统怎么一起规划?

2026-01-24 11:23:28 634

原创 Flink SQL Connector 用 DataGen + Print + BlackHole 搭一条“最短闭环”,把正确性与压测一次搞定(顺便串起 Hive / OpenAI)

本文系统分析了Flink SQL中各类连接器的核心功能与应用场景。首先将连接器拆解为"能力块":包括Source、Lookup Source、Sink等基础功能,并详细说明JDBC、Elasticsearch等常用连接器的组合应用方式。随后介绍了DataGen、Print、BlackHole三个调试工具,构建了"最短闭环"验证流程,提供了一套通用压测模板。最后针对JDBC维表Lookup、Hive批流统一仓、OpenAI文本

2026-01-24 11:17:05 565

原创 Flink + Hive Functions HiveModule、原生聚合加速、复用 Hive UDF/UDTF/UDAF

本文介绍了Flink集成Hive函数的关键技术点。HiveModule允许在Flink中直接调用Hive内置函数,但需注意线程安全问题。1.17版本引入的native聚合函数支持hash聚合优化性能,可通过配置开关启用。Flink能自动转换Hive的UDF/UDTF/UDAF等函数,实现代码复用。生产实践中建议进行正确性和性能验证,特别关注UDTF扩行和聚合函数优化场景。使用时需确保满足HiveCatalog、jar包加载等前置条件,并注意版本兼容性和线程安全问题。

2026-01-23 14:27:59 568

原创 Flink Hive 把 Hive 表变成“可流式消费”的数仓底座

本文介绍了Flink与Hive集成的核心功能和使用场景。主要内容包括:1)Hive作为数据源,支持批量和流式读取,可监控新增分区或文件;2)Hive作为维表,实现实时数仓中的Temporal Join;3)写入Hive的方式,批处理支持覆盖写入,流处理通过分区提交策略逐步可见数据;4)性能优化技巧,如向量化读取、并行度推断等;5)注意事项,如原子性要求、分区爆炸风险、对象存储的Exactly-once实现等。文章还提供了SQL配置示例和常见问题的解决方案,帮助开发者高效构建实时数仓链路。

2026-01-23 13:49:30 664

原创 Flink × Hive HiveCatalog 一键接入元数据,Flink 直接读写 Hive 表

HiveCatalog用于元数据共享管理,适合多团队协作场景;直接读写Hive表则用于数据流转场景。版本支持上需注意Hive 2.3.x和3.1.x系列,推荐使用Flink官方提供的bundled connector避免依赖冲突。实际使用中需配置Hadoop环境,通过SQL Client创建HiveCatalog后可实现跨会话表定义复用。典型问题包括Hadoop类缺失、Metastore连接失败和版本冲突等,建议优先使用整包依赖并正确配置环境变量。该整合方案既能实现流

2026-01-23 09:15:37 596

原创 Spring 新声明式 HTTP 客户端:HTTP Interface + RestClient,把“调用外部 API”写成接口

可放在类型上做统一配置,方法上用补齐具体动作;方法参数支持等。Home。

2026-01-22 13:22:22 388

原创 Flink SQL 压测最短闭环Print 验证正确性 + BlackHole 榨干性能上限(附 Join/Agg/TopN/UDF 模板)

本文介绍了如何通过Print和BlackHole两种方式高效测试Flink SQL的性能和正确性。Print适合小流量验证SQL逻辑的正确性,而BlackHole则用于大流量测试SQL的计算吞吐上限。文章提供了详细的测试步骤,包括创建测试表、数据生成、SQL模板以及关键指标监控方法,帮助开发者快速定位性能瓶颈。最后给出了完整的测试清单,确保测试过程全面可靠。这种方法能显著提高SQL调优效率,减少生产环境中的问题。

2026-01-22 13:09:40 459

原创 Flink BlackHole SQL Connector /dev/null 式“吞数据”Sink,压测与验证的神器

Flink黑表(BlackHole)是一种特殊的连接器,用于性能测试和瓶颈分析。它完全丢弃数据而不输出,适合压测场景。主要用途包括:1) 替换真实sink快速判断性能瓶颈是否来自外部系统;2) 与DataGen组合进行SQL极限吞吐测试;3) 与Print表配合使用(Print验证数据正确性,BlackHole测试性能)。在生产排障中,通过切换为黑表可以快速定位瓶颈来源(计算逻辑还是外部系统)。注意黑表不能验证数据正确性,仅用于性能评估。

2026-01-22 13:03:41 48

原创 Flink Print SQL Connector最强“肉眼调试”Sink,用对真的省一半时间

本文介绍了Flink Print Connector的使用方法和排障技巧。主要内容包括:1) 最小可用DDL语法;2) 输出格式解析,重点说明RowKind标识符(+I/-D/-U/+U)的含义;3) print-identifier参数在多并行任务中的日志区分作用;4) 将输出重定向到stderr的生产实践;5) 通过sink.parallelism控制打印并行度;6) DataGen与Print组合的快速验证模板;7) 生产环境使用建议,包括避免长期开启、添加过滤条件、关注RowKind等排障技巧。该连

2026-01-22 12:59:29 201

原创 Flink DataGen SQL Connector 本地造数、压测、边界数据与“像真数据”的生成技巧

本文详细介绍了Flink DataGen连接器的使用技巧,包括核心概念(bounded/unbounded)、常用参数配置(控速/有界/并行)、字段级定制方法(随机/序列/NULL注入)、特殊类型处理(字符串/集合)以及高级用法(LIKE复制表结构)。重点讲解了如何模拟真实数据场景,提供了压测和脏数据测试的配方模板,并总结了常见易错点,如字段长度限制、序列类型边界效应等。该指南适合需要快速生成测试数据的Flink开发者参考。

2026-01-22 12:04:32 820

原创 Flink DataGen SQL Connector 本地造数、压测、边界数据与“像真数据”的生成技巧

本文详细介绍了Flink DataGen连接器的使用技巧,包括核心概念(bounded/unbounded)、常用参数配置(控速/有界/并行)、字段级数据生成方法(random/sequence/NULL注入/时间控制)、字符串和集合类型处理、高级用法(LIKE复制表结构),以及压测和脏数据测试的实用配方。重点指出了VARCHAR长度限制、sequence导致bounded、DATE/TIME字段特性等常见陷阱,为Flink数据生成测试提供了全面的技术指导。

2026-01-22 12:00:44 553 1

原创 Flink HBase SQL Connector RowKey 设计、Upsert 语义、维表 Join、缓存与写入调优

Flink SQL 连接 HBase 采用 Upsert 模式,必须定义 rowkey 字段作为主键。数据映射规则要求列族声明为 ROW 类型,rowkey 为原子字段。写入时需用 ROW(...) 构造列族值,读取支持 Scan 和维表 Join。生产环境中需重点优化 RowKey 设计以避免热点问题,可采用 Hash/Salt 前缀或倒排时间等方法。此外需关注一致性、幂等性、写入调优及 Lookup 缓存配置,并可通过 properties.* 参数透传 HBase 原生配置。

2026-01-22 11:21:37 815

原创 Flink HBase SQL Connector RowKey/列族映射、Upsert 语义、Lookup 维表、缓存与写入缓冲

本文介绍了 Flink 连接 HBase 的关键配置要点:1) HBase 始终以 Upsert 模式运行,必须定义 rowkey 作为主键;2) 列族需声明为 ROW 类型,支持选择性映射;3) 写入时需用 ROW() 构造列族值,可配置 NULL 值处理;4) 支持扫描查询和维表 Join,可开启异步查询提升性能;5) 提供写入缓冲、Lookup 缓存等优化参数,并支持 HBase 原生配置透传。文章还特别强调了数据类型映射中空字节与 NULL 的转换规则,最后给出了一个生产级配置模板。

2026-01-22 09:16:57 766

原创 Flink FileSystem SQL Connector 分区文件表、目录监听、滚动策略、Compaction 与 Partition Commit(避坑指南)

本文详细介绍了 Flink FileSystem SQL Connector 的核心功能和使用方法。该连接器支持访问本地、HDFS、S3等文件系统,内置在 Flink 中无需额外依赖。重点内容包括: 分区表定义与 Hive 风格目录结构 源端配置(一次性扫描/持续监听) 文件元数据列的使用技巧 写入机制(滚动策略、文件格式差异) 小文件合并功能及注意事项 分区提交策略(process-time/partition-time)与时

2026-01-22 09:15:52 618

原创 Flink OpenSearch SQL Connector Append/Upsert、动态索引、Exactly-Once 与性能调参

本文介绍了Flink OpenSearch SQL Connector的核心功能与使用要点。该Connector支持批处理和流式写入,可根据DDL主键定义选择Append或Upsert模式。文章详细说明了版本依赖、文档ID生成规则、动态索引路由策略、交付语义配置、Bulk写入优化参数以及安全认证等关键特性。特别强调了主键设计、Upsert模式匹配、checkpoint协调等生产环境常见问题,并提供了性能调优建议和上线前检查清单,帮助开发者正确配置和使用该Connector实现数据高效写入OpenSearch

2026-01-20 13:20:10 730

原创 Flink 2.2 连接器打通 AWS(DynamoDB/Kinesis/Firehose)与 Elasticsearch/MongoDB/JDBC 的数据链路

本文介绍了Flink与AWS DynamoDB、Kinesis、Elasticsearch等组件的集成方案。重点包括:DynamoDB Streams作为CDC源时保持主键有序性的特点;Kinesis Firehose Sink的批处理参数配置;Elasticsearch两种写入方式的语义差异(DataStream提供at-least-once,SQL Connector需注意主键规则);以及MongoDB Connector的Upsert和分片写入特性。文章还指出了Kinesis版本迁移的兼容性问题,为构

2026-01-20 13:18:59 855

原创 Flink 2.2 连接器打通 AWS(DynamoDB/Kinesis/Firehose)与 Elasticsearch/MongoDB/JDBC 的数据链路

本文介绍了Flink与AWS数据服务的集成方案,重点分析了DynamoDB、Kinesis、Elasticsearch和MongoDB的连接器使用要点。主要内容包括:1)DynamoDB Streams作为CDC源时保证主键有序性,BatchWriteItem实现批量写入;2)Kinesis Firehose Sink的批量投递参数配置;3)Elasticsearch两种写入方式的语义差异(DataStream提供至少一次,SQL支持动态索引);4)MongoDB连接器支持分片集合的幂等写入和维表关联缓存。

2026-01-19 15:54:00 568

原创 Flink JDBC SQL Connector 用一张 DDL 打通任意关系型数据库(Scan / 维表 Join / Upsert 落库 / Catalog)

Flink JDBC SQL Connector 提供 Scan、Lookup、Sink 三种模式,支持批处理和流处理。使用要点包括:定义主键实现 Upsert 模式写入,否则只能 Append 模式;需自行添加 JDBC 驱动依赖;支持分区扫描提升大表读取效率;维表 Join 可通过缓存优化性能。关键配置涉及连接参数、批量读取设置、缓存策略和写入缓冲等。建议生产环境务必定义主键确保写入幂等性,并合理调整参数平衡吞吐与延迟。此外,JdbcCatalog 可将外部数据库直接映射为 Flink Catalog,

2026-01-19 13:41:04 676

原创 Flink MongoDB SQL Connector Scan/Lookup/Sink 全打通,Upsert、分片集群与缓存一篇讲透

Flink MongoDB Connector 使用指南:当前 Flink 2.2 版本暂无可用连接器,需自行添加依赖。写入模式由主键决定:定义主键支持 Upsert 模式(幂等写入),无主键仅支持 Append 模式。建议显式定义主键映射到 MongoDB 的 _id 字段,并注意分片集群需用 PARTITIONED BY 声明 shard key。扫描读取支持多种并行策略(single/sample/split-vector/sharded),维表查询可启用 PARTIAL 缓存提升性能。使用时需

2026-01-19 11:20:44 868

原创 Flink SQL 接入 Amazon Kinesis Data Streams 版本迁移、DDL、EFO/Polling、分区与常见坑一篇搞定

Flink 2.2 暂不支持 Kinesis SQL Connector,需等待官方更新或降级版本。Kinesis Connector 分新旧两套接口(SourceFunction/SinkFunction 与 Source/Sink),需注意版本兼容性,避免 TableFactory 冲突。迁移时需停作业重启,通过时间点对齐实现数据接续,接受可能的重复处理。 创建 Kinesis 表需指定 ARN、区域、初始位置(如 LATEST)及数

2026-01-19 11:10:45 673

原创 Flink Firehose Sink 把实时流数据稳定写进 Amazon Kinesis Data Firehose

本文详细介绍了如何在Apache Flink中使用Kinesis Firehose Connector。主要内容包括:版本兼容性说明(Flink 2.2暂不支持);核心实现原理(基于AWS SDK v2批量写入);Java/Python代码示例;关键配置参数详解(批量写入、错误处理、背压控制等);生产环境调优建议(低延迟/高吞吐两种场景);以及本地调试技巧(使用Localstack或VPC Endpoint)。文章特别强调了Firehose API的固有限制(500条/4MiB/1000KB)及对应参数调优

2026-01-18 21:38:17 740

原创 Flink Elasticsearch Connector 从 0 到 1 搭一个高吞吐、可容错的 ES Sink

Flink 2.2版本目前尚未提供Elasticsearch连接器依赖,建议使用稳定版本如1.20/2.0。配置ES Sink时需根据ES版本选择6.x或7.x连接器,核心是通过BulkProcessor实现批量写入。启用checkpoint可保证at-least-once语义,配合deterministic id和upsert可实现类exactly-once效果。关键参数包括flush策略(maxActions/maxSize/interval)和backoff重试机制。注意PyFlink需额外加载JAR

2026-01-18 21:26:04 790

原创 Flink DynamoDB Connector 用 Streams 做 CDC,用 BatchWriteItem 高吞吐写回

做集成测试时,很常见要写到 Localstack,或写到 VPC Endpoint。Flink 文档给了明确做法:设置,并同时设置AWS_REGION(region 用于对 endpoint URL 做签名)。这招对 Source 和 Sink 都适用,尤其适合做端到端回归测试。

2026-01-18 17:47:19 696

原创 Apache Cassandra Connector Flink 与宽列存储的高吞吐协作

本文介绍了Flink与Cassandra的集成使用方式。主要内容包括:1) Maven依赖配置和本地Cassandra环境搭建;2) Cassandra Source的有界批量读取能力及POJO映射实现;3) Cassandra Sink的高吞吐写入配置选项,包括Tuple和POJO两种写入方式;4) Exactly-Once语义实现及Write-Ahead Log机制;5) 实战WordCount示例;6) 适用场景分析。Cassandra Connector适合作为Flink计算结果的高吞吐落地层,但不

2026-01-17 14:24:46 838

原创 一篇搞懂 Flink 常用数据源与连接器从 PyFlink 环境变量到 Kafka 实战

本文介绍了PyFlink开发中的关键配置与连接器使用。主要内容包括:1)PyFlink环境变量FLINK_HOME和PYFLINK_CLIENT_EXECUTABLE的配置要点,直接影响任务执行环境;2)通过Hadoop兼容模块复用Hadoop生态的InputFormat体系;3)DataGen连接器在本地开发和测试中的应用;4)Kafka连接器的核心功能,包括Source/Sink实现、消费语义和监控指标。文章强调了Flink生态连接能力的重要性,这些组件共同决定了开发效率和生产系统的稳定性。

2026-01-17 13:43:24 683

原创 Dynamic Kafka Source不重启也能“动态切换集群/主题”

在传统 KafkaSource 里,如果你需要“新增/下线 topic”、或者“Kafka 集群迁移/故障切换”,大多数时候都绕不开改配置 + 重启作业。Dynamic Kafka Source 的目标就是把这件事自动化:它通过一个“Kafka 元数据服务(KafkaMetadataService)”把逻辑流(stream id)解析成实际集群 + topic 列表,然后在运行中定期轮询元数据变化,自动完成订阅变更,做到“透明迁移/透明扩容/透明下线”。

2026-01-16 09:38:30 711

原创 DataGen Connector本地造数神器(不用 Kafka 也能把 Pipeline 跑起来)

DataGen(DataGeneratorSource)是 Flink 内置的“造数”Source:不依赖任何外部系统、不需要额外 jar,非常适合本地开发、联调、写 Demo、压测算子链路。

2026-01-16 09:33:20 367

建议一个名称为 FusionDepthSR,即“融合深度超分辨网络” 这个名称突出了项目核心:利用 RGB 图像引导,实现深度图的超分辨率重建,并通过多尺度与反馈机制融合特征,提升重建效果

项目概述 本项目是基于 PyTorch 的超分辨率及深度图增强系统,主要目标是利用 RGB 图像对深度图进行高质量超分辨率重建。项目涵盖了数据预处理、网络模型构建、训练、测试以及离线评估等完整的深度学习流水线。 PMBANet(pmpanet.py) PMBANet 是本项目的核心网络,专门设计用于深度图超分任务。网络主要由以下部分构成: 多膨胀率模块:利用不同膨胀率的卷积捕捉多尺度特征,同时通过动态调整的上采样模块实现不同倍数的分辨率提升。 反馈块:包含一个进行上采样的反馈块和一个保持分辨率的反馈块,通过反馈机制提升细节重建能力。 通道注意力机制:对融合后的特征图进行通道加权,突出重要特征,从而进一步提升重建质量。 初始卷积:分别对 RGB 图和深度图进行特征提取,并在后续阶段进行特征对齐与融合。 基础网络组件(base_networks.py) 提供了构建 PMBANet 的各个基础模块,包括常用的卷积块、转置卷积块(支持根据上采样倍数动态堆叠层数)、膨胀卷积块、以及各种多膨胀率模块和反馈块,这些组件实现了模型中多尺度、反馈和注意力机制等关键功能。

2025-03-08

Middlebury2014 & RGB TRAIN 深度超分数据集

本数据集主要整合了 Middlebury2014 以及自建的 RGB 训练集,用于深度图像超分辨率及相关视觉任务研究。其中,Middlebury2014 数据集体量较大,包含高质量的立体对、深度图及配套标注信息,适合进行深度估计、立体匹配与超分辨率等多种实验;RGB TRAIN 则为针对深度超分所准备的配套 RGB 数据,可与深度图进行联合训练或引导。整体数据规模在数 GB 级别,覆盖多样场景和视角,能够支持深度学习模型在深度重建、融合超分和立体匹配等方向的深入研究与评测。

2025-03-08

`echo` 命令是 Unix 和 Linux 系统中的基础命令

echo命令

2024-10-14

axure web元件库.zip

web前后端元件库 适用于Axure RP 8, 9, 10 它是设计原型必备元件库,可以帮助您快速设计原型 精品元件库,非拼凑,元件库十分丰富,完全够用 支持element ui和ant design

2024-05-17

Manticore Search号称Elasticsearch快15倍得全文检索引擎

Manticore Search windows安装包

2024-03-08

milvus_manifest.yaml

milvus_manifest

2024-03-06

dlib-19.24.2.tar.gz

dlib-19.24.2.tar

2024-03-06

Wav2Vec2模型文件

Wav2Vec2是由Facebook AI Research(FAIR)开发的语音识别模型,旨在从原始语音波形中学习语音表示。与传统方法相比,它采用了自监督学习技术,无需人工标注的转录即可进行训练。Wav2Vec2采用了改进的架构和对比学习方法,使其能够更好地理解语音片段的上下文和特征,从而提高了语音识别的准确性和鲁棒性。该模型还支持多语言,并可以通过微调进行定制以适应不同的任务和数据集。总的来说,Wav2Vec2代表了语音识别领域的前沿技术,具有高效、准确和通用的特点。

2024-02-29

arcface模型文件

ArcFace 模型文件通常是指包含了已经训练好的 ArcFace 模型参数的文件,这些参数可以用于进行人脸识别任务。由于 ArcFace 模型通常是基于深度学习技术构建的神经网络模型,因此模型文件可能是各种深度学习框架(如TensorFlow、PyTorch、MXNet等)所支持的格式。

2024-02-28

Resnet152模型文件基于2048维度的向量

这个模型实际上是在创建一个名为ImageFeatureExtractor的神经网络模型,这个模型的任务是从图像中提取特征。我们使用了一个预训练好的ResNet-152模型来帮助我们完成这个任务,ResNet-152是一个非常强大的图像识别模型。 我们稍微定制了这个模型,将它的最后一层全连接层替换成了一个新的线性层,这样我们就能够得到一个2048维度的特征向量作为输出,而不是原始模型的分类结果。这种做法可以让我们在后续的任务中更方便地处理特征。 然后,我们在代码中生成了一个随机的图像作为输入,然后将这个输入送入模型,得到了一个2048维度的特征向量作为输出。 我们使用了PyTorch的torch.jit.trace方法,将这个模型转化成了一个Torch脚本,并将其保存到了一个文件中,这样我们就可以在其他地方轻松地加载和使用这个模型了。

2024-02-28

RediSearch编译安装(一)

redisearch编译包

2023-08-25

RedisJson编译安装(一)

RedisJson编译so文件包

2023-08-25

vue3版openlayers基础脚手架

这是一个使用vue3搭建的二维地图引起,基于openlayers,使用ts进行编码

2023-08-24

cesium for unreal

是一款用ue5编写得cesium gis程序demo

2023-07-30

使用wpf写得3D gis 基础框架

这是一款使用微软wpf编写得 3d gis基础框架程序,使用得是c#语言

2023-07-30

obj模型转3dtiles和gltf工具模型

这一一款将obj模型转化为3dtiles和gltf工具模型

2023-07-30

fbx模型转化gltf工具

这是一款将fbx模型转化成gltf得工具,希望可以帮助到大家

2023-07-30

基于MindAR项目程序

基于前端技术MindAR实现得AR项目程序。里面内嵌特征识别

2023-07-28

Three.js 三维模型(一)

本项目的js、css、model文件

2023-07-10

Flink CDC MySQL同步Elasticsearch

构建好的flink-sql-connector-mysql-cdc-2.5版本

2023-07-06

Flink CDC MySQL同步MySQL(一)

jdbc

2023-07-06

Flink CDC MySQL同步MySQL(一)

jdbc

2023-07-06

cesium-vue3框架

使用vue3搭建集成的现成框架,可直接进行编码开发

2022-02-24

cesium3D gis开发框架,已经开发了gis基层功能模块

cesium3D gis开发框架,已经开发了gis基层功能模块

2022-03-02

three.js. 3D机房项目

使用three.js开发的3D机房项目

2021-09-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除