寸先生的牛马庄园-CSDN博客

原创用扩散模型“一次生成图像和标注”：CoSimGen 如何实现可控的图像-Mask 同步生成

本文介绍一篇生成式视觉/医学图像方向有意思的论文：。它的核心问题不是单纯“生成一张图”，而是。这类问题在医学影像、手术场景、遥感、自动驾驶等领域很重要，因为这些领域最昂贵的往往不是原始图像，而是高质量、专家标注的像素级 mask。论文明确指出，现有生成模型多数只生成图像或只生成 mask，缺少对“成对图像-mask”的统一生成能力，也缺少灵活的文本/类别条件控制能力。

2026-05-21 15:24:14 330

原创【BIBM2025】 MedMamba-YOLO：医疗目标检测，当 YOLO 遇见轻量级 Mamba

通过阅读上述代码实现，我们可以发现 MedMamba-YOLO 的改进并非盲目的模块堆砌。CPIB 的通道交叉保证了微弱特征不丢失，MSF-FPN 与 SAVSSB 通过跨尺度连接与“CNN + Mamba”的互补机制构建了强大的时空感知能力，而 HMDA 进一步实现了对尺度变化的自适应兼容。理解这套设计逻辑，对改进其他工业视觉模型同样具有极高的参考价值。

2026-05-16 09:52:02 466

原创 SBLDM + TumorRefiner：用条件潜空间扩散生成高保真多模态 MRI 和多标签肿瘤掩码

在算力与数据双重受限的情况下，如何通过先验知识（医学影像的切片连续性）与任务分解（全局结构生成+局部细节超分）来榨干扩散模型的潜力。这不仅对医疗影像领域的同行极具启发性，其源码中的设计模式（特征聚合、局部裁剪细化流）也可广泛应用于卫星遥感、材料切片等其他含有三维空间结构但难以获得海量3D数据的场景中。

2026-05-15 08:53:31 412

原创【AAAI2026】GuideGen：用文本引导生成全躯干 CT 图像与解剖掩码的前沿方法解析

GuideGen 通过的组合，实现了全躯干 CT 与掩码的渐进式生成。数学原理、潜空间建模、mask-prompt 对齐和可学习下采样等技术保证了生成数据的结构与语义一致性，为医学影像 AI 数据增强提供了可行的解决方案。

2026-05-14 16:29:32 403

原创一篇看懂 SimGen：它为什么能“同时生成手术图像和分割掩码”？

因为手术图像本身是 RGB，3 通道；mask 经过 CFL 编码后，也变成 RGB 风格的 3 通道表示；x0⊕y0x0⊕y0也就是图像 3 通道 + mask 3 通道，总共 6 通道。这也是为什么论文里的 mask 不是单通道。不是作者“非要做复杂”，而是因为整个生成框架就是建立在“连续值联合建模”之上的。对于扩散模型来说，这样设计比直接生成离散 mask 更自然。

2026-05-13 09:35:57 253

原创【CVPR2024】用Diffusion“造”遥感分割数据：SatSynth论文解读

SatSynth最重要的贡献，不是提出了一个特别复杂的网络结构，而是提出了一种清晰的数据生成范式：用diffusion model学习图像和语义标签的联合分布，生成新的image-mask pairs，再作为数据增强用于下游semantic segmentation。它证明了三件事：第一，diffusion model可以不只生成图像，也可以生成与图像匹配的语义mask。第二，合成image-mask pairs确实能提升遥感segmentation performance。

2026-05-12 16:07:55 450

原创【TMI2025】医学版 Stable Diffusion？3D MedDiffusion 如何生成高质量 3D 医学影像

3D MedDiffusion 给我们的启发是：医学影像生成不能照搬自然图像生成。医学影像有自己的规则：它是三维的，结构要连续；它是临床相关的，细节不能乱；它的数据昂贵，生成结果最好能服务真实任务。这篇论文的价值，正在于它没有只追求“生成一张好看的图”，而是把高质量 3D 生成、可控适配、图像重建和数据增强放进了一个统一框架里。当然，它距离真正临床可用还有距离。未来还需要更强的临床验证、更细粒度的条件控制、更低的算力门槛，以及更严格的隐私与安全评估。

2026-05-12 14:48:38 503

原创【ICLR2026双盲审】联合生成 3D CT 与分割标签：Med3D-JADE 的方法、亮点与隐忧

Med3D-JADE 的价值，不在于它只是又提出了一个医学扩散模型，而在于它明确指出了医学数据增强中的一个关键问题：**医学分割缺的不是更多“看起来不同”的图像，而是更多“结构上不同且标注对齐”的样本。**从这个角度看，Med3D-JADE 是一个有启发性的工作。它通过 MAISI 预训练能力、双分支 latent diffusion、VJA 跨模态注意力，把 3D CT 和 segmentation mask 的联合生成变成了一个可运行的系统。

2026-05-12 08:59:16 401

原创【ICCV2025】仅需一段文字，MedSegFactory 同步生成医学图像与精确分割掩码

MedSegFactory 通过共享权重的双流架构与 JCA 机制，巧妙解决了医学图像合成中“缺标注”和“难对齐”的痛点。这种将文本提示直接转化为成对可用数据的范式，为降低医学 AI 研发门槛提供了一个极具实用价值的基础工具。

2026-05-11 11:42:28 419

原创【AAAI2026】EccoMamba 如何修复 Mamba 的空间感知短板？

EccoMamba 是一篇围绕 Mamba 医学图像分割缺陷进行结构性修补的论文：用 HAE 增强多尺度语义与边界表达，用 SCO 修复方向偏置和空间不连续，在多个医学分割数据集上取得了较强 DSC 表现；但它并非所有指标全面领先，尤其 HD95 和轻量化方面仍有改进空间。

2026-05-09 08:46:38 491

原创 Deformable Mamba：广角图像分割新思路

在计算机视觉的密集预测任务（如语义分割）中，状态空间模型（SSM，如 Mamba）凭借其线性的计算复杂度，正逐渐成为 Transformer 的有力竞争者。然而，当我们把目光从标准的针孔相机转向广角相机（如 180° 鱼眼或 360° 全景）时，现有的视觉 Mamba 模型往往会出现问题。本文将深度解析发表于 2025 年的一篇具有工程实用价值的论文——。作者提出了一种轻量级的。它不仅将参数量和计算量大幅压缩，还作为一种“即插即用”的插件，赋予了常规骨干网络处理广角畸变的能力。

2026-04-06 07:33:13 422

原创【CVPR2025】DefMamba突破固定扫描的枷锁的可变形视觉状态空间模型

的路径。这种做法就像是“刻舟求剑”：无论图像内容是什么，模型都按死板的路线走。这导致空间上相邻的像素在展平后可能相距甚远，从而丢失了图像原有的几何结构信息。为了解决这一痛点，论文提出。

2026-04-05 18:07:11 251

原创轻量级超分的双频域协同：深入源码解析 DMNet 架构设计

在边缘计算设备（如手机、无人机）上部署图像超分辨率（SR）模型时，算法工程师常常面临一个权衡：如何在极其有限的计算资源（低参数量、低 FLOPs）下，尽可能恢复出高保真的图像细节？现有的轻量级超分网络大多局限于空间域（Spatial Domain）进行操作，这天然限制了模型的感受野，导致难以捕捉全局结构。为了打破这一限制，研究者开始引入频域（如傅里叶域或小波域）信息。。本文将结合论文作者开源的源码，深入拆解 DMNet 的底层逻辑，并提供核心模块的可插拔代码与详细注释，探讨其在工业界落地的潜力与局限。

2026-04-04 15:33:56 427

原创【ICLR2026】视觉状态空间模型的效率重构：SF-Mamba解析

近年来，基于状态空间模型（State Space Model, SSM，如 Mamba）的视觉架构，因其具备线性的计算复杂度，成为了视觉 Transformer（ViT）的重要补充。然而，在实际工程落地中，视觉 Mamba 往往面临两个严峻的效率阻碍：一是为获取二维空间信息而采用的多向扫描（Multi-directional scan）不仅逻辑复杂，且伴随高昂的内存重排开销；二是 Mamba 底层算子在处理视觉任务常见的短序列时，硬件并行利用率不足。

2026-04-03 09:11:31 379 1

原创【IEEE TGRS (2026)】WESSP-Mamba：基于小波先验注入的 Mamba 图像超分网络深度解析

在高光谱图像（Hyperspectral Image, HSI）的处理任务中，超分辨率重建（HSI-SR）是提升遥感图像空间分辨率的重要技术。近年来，基于状态空间模型（如 Mamba）的架构因其线性的计算复杂度，在序列建模中展现出显著优势。然而，将 Mamba 应用于高光谱图像超分时，网络在特征提取过程中容易出现空间-光谱细节丢失的问题。近期，发表于遥感领域顶级期刊。

2026-04-02 07:12:11 549

原创【IEEE TNNLS 2025】赋予大模型“跨院行医”的能力：基于全局与局部提示的医学图像泛化框架 (GLP) 解析

在医学图像分割的临床落地中，一个长期存在的痛点是**“领域偏移 (Domain Shift)”**。一个在A医院（源域）表现完美的深度学习模型，当部署到使用不同成像设备、不同扫描参数的B医院（未知目标域）时，往往会遭遇性能的断崖式下跌。如图1所示，同样的糖尿病视网膜病变影像由于不同的拍摄设备展示出来的效果完全不同，虽然从分割mask的结果看，眼球结构类似。近年来，大视觉模型（PVM，如 Vision Transformer）在自然图像领域展现了强大的特征表达能力。

2026-04-01 09:30:51 425

原创【TMI2025】赋予AI医生“解耦思维”：基于概率属性学习(PAL)的皮肤病变分割框架拆解

在医学图像分割领域，近年来基于CNN和Vision Transformer（ViT）的模型层出不穷。然而，在面对皮肤病变（如黑色素瘤）时，这些模型往往面临着边界模糊、毛发遮挡、病灶颜色形态变化剧烈等严峻挑战。下图中(a) 是皮肤病变分割中的挑战性案例：第一行是颜色、形状和尺寸变化的挑战，第二行是模糊的边界，第三行是毛发遮挡，第四行是噪声干扰。真实的皮肤科医生是如何克服这些干扰的？

2026-03-31 09:00:26 407

原创打破“像素级”扫描瓶颈：聚类驱动的4K图像恢复新范式 (解读 Scan Clusters, Not Pixels)

在图像恢复（Image Restoration）领域，如何在获得全局感受野的同时保持计算的高效性，始终是一个核心难题。从早期的卷积神经网络（CNN）到近年的视觉Transformer（ViT），算力与精度的博弈从未停止。最近，状态空间模型（State Space Models, SSMs，如Mamba）凭借其线性的计算复杂度（ON）备受瞩目。然而，面对超高清（Ultra-High-Definition, UHD，如4K）图像，即便复杂度降至ON。

2026-03-30 08:43:21 486

原创【npj Digital Medicine2026】CFG-MambaNet在医疗图像分割中的频域与多尺度创新

在医疗图像分割领域，研究人员长期面临着一个被戏称为“不可能三角”的挑战：如何在一个模型中同时实现高效的全局上下文建模、高分辨率下的计算效率，以及对病灶边界的精准勾画。传统的卷积神经网络（CNN）擅长捕捉局部边界细节，但受限于感受野，难以进行全局建模；而Transformer虽然具备完美的全局自注意力机制，但其计算复杂度随图像分辨率呈二次方增长，难以高效处理高分辨率的医疗图像。

2026-03-24 07:02:46 433

原创无需配对图文？解析MIT新视角：利用无配对多模态数据增强单模态表征

因此这篇论文在理论上画饼，如果要真刀真枪地做 ©，模型不能有分类头。它必须是一个底层的生成式大模型（比如一个共享的 Transformer Backbone），同时跑图像的“掩码重建（MAE）”和文本的“预测下一个词（Causal LM）”。工程实现上如果没有任何配对信号，也没有标签牵线搭桥，你把一堆毫不相干的纯图像像素和纯文本单词扔给同一个网络，网络极大概率会发生**“模态隔离（Modality Isolation）”

2026-03-20 08:29:47 439

原创【Kimi最新技术报告解读】Attention Residual：用注意力机制重构Transformer残差连接

在现代大语言模型（LLM）的架构中，带有 PreNorm 的标准残差连接（Residual Connections）几乎是不可或缺的基石。然而，这一习以为常的基础结构是否存在底层的数学缺陷？2026年3月16日，Kimi 团队发布了技术报告《Attention Residuals》，直接向这一经典结构提出了挑战。该研究指出，传统的残差连接会导致深层网络出现严重的“幅值膨胀”与“信息稀释”问题。为此，作者提出了一种名为。

2026-03-19 06:58:28 688

原创【TMI 2025】破解医学视觉基础模型的“高频盲区”——Frepa预训练框架解码

近年来，随着掩码自编码器（MAE）和对比学习（CLIP）的兴起，视觉基础模型在自然图像领域取得了令人瞩目的成就。然而，当这些模型被直接迁移到医学图像分析时，往往遭遇水土不服。发布在医学图像分析顶刊IEEE Transactions on Medical Imaging的一篇题为《Improving Representation of High-frequency Components for Medical Visual Foundation Models》的研究，精准定位了当前医学基础模型的缺陷——。

2026-03-18 09:04:26 372

原创 [AAAI2026]结合方向先验与空频联合域的医学图像分割解码器

在医学图像分割任务中，经典的 U-Net 及其衍生架构（如各种 Vision Transformer 变体）在全局上下文建模上已经取得了显著进展。然而，现有模型在处理极其微小的边缘细节、局部复杂纹理以及保持空间连续性时，依然存在瓶颈。特别是传统的跳跃连接（Skip Connections）往往采用简单的加法或拼接，容易将编码器中的背景噪声和冗余特征直接带入解码阶段。

2026-03-17 08:34:33 358

原创从DFL到无NMS推理：一文拆解YOLO26背后的工程取舍与数学原理

因为矩阵是 3x3，但我们只用了2条线，线数（2）< 维度（3），说明目前的 0 还不够多，还没法达成完美的一对一分配。MuSGD 利用这一迭代，在几乎不增加额外显存负担的情况下，获取了包含平滑曲率信息的正交化梯度，使得 YOLO26 能够以更少的训练轮数（Epochs）稳定收敛。在模型优化方面，YOLO26 提出了 MuSGD 优化器，它结合了传统 SGD（随机梯度下降）的泛化能力，并吸收了常用于大语言模型（LLM）训练的Muon优化器思想，在KIMI2.5训练中就用到了Muon。

2026-03-14 12:04:40 694

原创摒弃UNet Decoder！E-SegNet参数骤降却刷新8大医学分割数据集榜单

本文解读一篇发表在Research 2025（Science 合作期刊）的全新医学图像分割网络。

2026-03-11 08:42:25 357

原创【MICCAI 2025 Oral】DC-Seg靠“特征解耦”完美破解磁共振缺模态魔咒

SSIM（Structural Similarity Index Measure，结构相似性指标）是传统图像处理领域一个极其经典的指标，用来衡量两张图像有多“像”。它和常规误差（如 MSE 均方误差）的区别在于MSE 是“像素对像素”地算差值，如果把一张图整体调亮，虽然人眼看着还是同一个东西，但 MSE 会变得无限大。而 SSIM 是从“人类视觉系统”的角度出发的，它主要考量三个维度：亮度（Luminance）、对比度（Contrast）和结构（Structure）。

2026-03-10 09:26:33 391

原创【MIA2026】用“混合专家”重构 Mamba！Switch-UMamba如何破局2D 图像动态扫描

本文解读一篇由中科院深圳先进院、北大、鹏城实验室等机构联手打造的 Switch-UMamba，发表在医学人工智能顶刊Medical Image Analysis。！

2026-03-09 08:12:56 491

原创 [MICCAI2025]Mamba “吃掉”了你的高频边缘？看 PolyMamba 如何靠“频域双高斯滤波”打赢翻身仗！

本文介绍接收的论文《PolyMamba: Spatial-Prior Guided Mamba for Polyp Segmentation with High-Frequency Enhancement》。自从 Mamba（状态空间模型）横空出世，它凭借“拥有媲美 Transformer 的全局建模能力，却只有线性计算复杂度”的优势，迅速在计算机视觉领域掀起风暴。然而，把纯 Mamba 模型直接套用到结肠息肉分割任务中时，研究人员发现了两个致命的缺陷。

2026-03-08 09:39:18 489

原创【ESA2026】告别暴力上采样！让 SAM 读懂视网膜：WaveRNet 的分层掩码与频域魔法

本文拆解一篇发表在人工智能领域顶级期刊上的最新重磅论文。在眼科疾病（如糖尿病视网膜病变、青光眼等）的自动诊断中，视网膜血管分割是不可或缺的基础环节。然而，当把在 A 医院（源域）训练好的模型拿到 B 医院（目标域）去用时，效果往往惨不忍睹。这种“水土不服”主要是由不同成像设备带来的光照不均和对比度差异（即域偏移 Domain Shift）造成的。目前大火的“分割一切模型” SAM (Segment Anything Model) 虽然具有惊人的零样本泛化能力，但在微小的血管面前却频频“翻车”。这篇名为。

2026-03-06 09:12:34 405

DataSocket技术在网络化测试中的应用

空空如也