自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

寸先生的AI道路

可上九天揽月,可下五洋捉鳖,谈笑凯歌还

  • 博客(385)
  • 资源 (1)
  • 收藏
  • 关注

原创 用扩散模型“一次生成图像和标注”:CoSimGen 如何实现可控的图像-Mask 同步生成

本文介绍一篇生成式视觉/医学图像方向有意思的论文:。它的核心问题不是单纯“生成一张图”,而是。这类问题在医学影像、手术场景、遥感、自动驾驶等领域很重要,因为这些领域最昂贵的往往不是原始图像,而是高质量、专家标注的像素级 mask。论文明确指出,现有生成模型多数只生成图像或只生成 mask,缺少对“成对图像-mask”的统一生成能力,也缺少灵活的文本/类别条件控制能力。

2026-05-21 15:24:14 330

原创 【BIBM2025】 MedMamba-YOLO:医疗目标检测,当 YOLO 遇见轻量级 Mamba

通过阅读上述代码实现,我们可以发现 MedMamba-YOLO 的改进并非盲目的模块堆砌。CPIB 的通道交叉保证了微弱特征不丢失,MSF-FPN 与 SAVSSB 通过跨尺度连接与“CNN + Mamba”的互补机制构建了强大的时空感知能力,而 HMDA 进一步实现了对尺度变化的自适应兼容。理解这套设计逻辑,对改进其他工业视觉模型同样具有极高的参考价值。

2026-05-16 09:52:02 466

原创 SBLDM + TumorRefiner:用条件潜空间扩散生成高保真多模态 MRI 和多标签肿瘤掩码

在算力与数据双重受限的情况下,如何通过先验知识(医学影像的切片连续性)与任务分解(全局结构生成+局部细节超分)来榨干扩散模型的潜力。这不仅对医疗影像领域的同行极具启发性,其源码中的设计模式(特征聚合、局部裁剪细化流)也可广泛应用于卫星遥感、材料切片等其他含有三维空间结构但难以获得海量3D数据的场景中。

2026-05-15 08:53:31 412

原创 【AAAI2026】GuideGen:用文本引导生成全躯干 CT 图像与解剖掩码的前沿方法解析

GuideGen 通过的组合,实现了全躯干 CT 与掩码的渐进式生成。数学原理、潜空间建模、mask-prompt 对齐和可学习下采样等技术保证了生成数据的结构与语义一致性,为医学影像 AI 数据增强提供了可行的解决方案。

2026-05-14 16:29:32 403

原创 一篇看懂 SimGen:它为什么能“同时生成手术图像和分割掩码”?

因为手术图像本身是 RGB,3 通道;mask 经过 CFL 编码后,也变成 RGB 风格的 3 通道表示;x0⊕y0x0​⊕y0​也就是图像 3 通道 + mask 3 通道,总共 6 通道。这也是为什么论文里的 mask 不是单通道。不是作者“非要做复杂”,而是因为整个生成框架就是建立在“连续值联合建模”之上的。对于扩散模型来说,这样设计比直接生成离散 mask 更自然。

2026-05-13 09:35:57 253

原创 【CVPR2024】用Diffusion“造”遥感分割数据:SatSynth论文解读

SatSynth最重要的贡献,不是提出了一个特别复杂的网络结构,而是提出了一种清晰的数据生成范式:用diffusion model学习图像和语义标签的联合分布,生成新的image-mask pairs,再作为数据增强用于下游semantic segmentation。它证明了三件事:第一,diffusion model可以不只生成图像,也可以生成与图像匹配的语义mask。第二,合成image-mask pairs确实能提升遥感segmentation performance。

2026-05-12 16:07:55 450

原创 【TMI2025】医学版 Stable Diffusion?3D MedDiffusion 如何生成高质量 3D 医学影像

3D MedDiffusion 给我们的启发是:医学影像生成不能照搬自然图像生成。医学影像有自己的规则:它是三维的,结构要连续;它是临床相关的,细节不能乱;它的数据昂贵,生成结果最好能服务真实任务。这篇论文的价值,正在于它没有只追求“生成一张好看的图”,而是把高质量 3D 生成、可控适配、图像重建和数据增强放进了一个统一框架里。当然,它距离真正临床可用还有距离。未来还需要更强的临床验证、更细粒度的条件控制、更低的算力门槛,以及更严格的隐私与安全评估。

2026-05-12 14:48:38 503

原创 【ICLR2026双盲审】联合生成 3D CT 与分割标签:Med3D-JADE 的方法、亮点与隐忧

Med3D-JADE 的价值,不在于它只是又提出了一个医学扩散模型,而在于它明确指出了医学数据增强中的一个关键问题:**医学分割缺的不是更多“看起来不同”的图像,而是更多“结构上不同且标注对齐”的样本。**从这个角度看,Med3D-JADE 是一个有启发性的工作。它通过 MAISI 预训练能力、双分支 latent diffusion、VJA 跨模态注意力,把 3D CT 和 segmentation mask 的联合生成变成了一个可运行的系统。

2026-05-12 08:59:16 401

原创 【ICCV2025】仅需一段文字,MedSegFactory 同步生成医学图像与精确分割掩码

MedSegFactory 通过共享权重的双流架构与 JCA 机制,巧妙解决了医学图像合成中“缺标注”和“难对齐”的痛点。这种将文本提示直接转化为成对可用数据的范式,为降低医学 AI 研发门槛提供了一个极具实用价值的基础工具。

2026-05-11 11:42:28 419

原创 【AAAI2026】EccoMamba 如何修复 Mamba 的空间感知短板?

EccoMamba 是一篇围绕 Mamba 医学图像分割缺陷进行结构性修补的论文:用 HAE 增强多尺度语义与边界表达,用 SCO 修复方向偏置和空间不连续,在多个医学分割数据集上取得了较强 DSC 表现;但它并非所有指标全面领先,尤其 HD95 和轻量化方面仍有改进空间。

2026-05-09 08:46:38 491

原创 Deformable Mamba:广角图像分割新思路

在计算机视觉的密集预测任务(如语义分割)中,状态空间模型(SSM,如 Mamba)凭借其线性的计算复杂度,正逐渐成为 Transformer 的有力竞争者。然而,当我们把目光从标准的针孔相机转向广角相机(如 180° 鱼眼或 360° 全景)时,现有的视觉 Mamba 模型往往会出现问题。本文将深度解析发表于 2025 年的一篇具有工程实用价值的论文——。作者提出了一种轻量级的。它不仅将参数量和计算量大幅压缩,还作为一种“即插即用”的插件,赋予了常规骨干网络处理广角畸变的能力。

2026-04-06 07:33:13 422

原创 【CVPR2025】DefMamba突破固定扫描的枷锁的可变形视觉状态空间模型

的路径。这种做法就像是“刻舟求剑”:无论图像内容是什么,模型都按死板的路线走。这导致空间上相邻的像素在展平后可能相距甚远,从而丢失了图像原有的几何结构信息。为了解决这一痛点,论文提出。

2026-04-05 18:07:11 251

原创 轻量级超分的双频域协同:深入源码解析 DMNet 架构设计

在边缘计算设备(如手机、无人机)上部署图像超分辨率(SR)模型时,算法工程师常常面临一个权衡:如何在极其有限的计算资源(低参数量、低 FLOPs)下,尽可能恢复出高保真的图像细节?现有的轻量级超分网络大多局限于空间域(Spatial Domain)进行操作,这天然限制了模型的感受野,导致难以捕捉全局结构。为了打破这一限制,研究者开始引入频域(如傅里叶域或小波域)信息。。本文将结合论文作者开源的源码,深入拆解 DMNet 的底层逻辑,并提供核心模块的可插拔代码与详细注释,探讨其在工业界落地的潜力与局限。

2026-04-04 15:33:56 427

原创 【ICLR2026】视觉状态空间模型的效率重构:SF-Mamba解析

近年来,基于状态空间模型(State Space Model, SSM,如 Mamba)的视觉架构,因其具备线性的计算复杂度,成为了视觉 Transformer(ViT)的重要补充。然而,在实际工程落地中,视觉 Mamba 往往面临两个严峻的效率阻碍:一是为获取二维空间信息而采用的多向扫描(Multi-directional scan)不仅逻辑复杂,且伴随高昂的内存重排开销;二是 Mamba 底层算子在处理视觉任务常见的短序列时,硬件并行利用率不足。

2026-04-03 09:11:31 379 1

原创 【IEEE TGRS (2026)】WESSP-Mamba:基于小波先验注入的 Mamba 图像超分网络深度解析

在高光谱图像(Hyperspectral Image, HSI)的处理任务中,超分辨率重建(HSI-SR)是提升遥感图像空间分辨率的重要技术。近年来,基于状态空间模型(如 Mamba)的架构因其线性的计算复杂度,在序列建模中展现出显著优势。然而,将 Mamba 应用于高光谱图像超分时,网络在特征提取过程中容易出现空间-光谱细节丢失的问题。近期,发表于遥感领域顶级期刊。

2026-04-02 07:12:11 549

原创 【IEEE TNNLS 2025】赋予大模型“跨院行医”的能力:基于全局与局部提示的医学图像泛化框架 (GLP) 解析

在医学图像分割的临床落地中,一个长期存在的痛点是**“领域偏移 (Domain Shift)”**。一个在A医院(源域)表现完美的深度学习模型,当部署到使用不同成像设备、不同扫描参数的B医院(未知目标域)时,往往会遭遇性能的断崖式下跌。如图1所示,同样的糖尿病视网膜病变影像由于不同的拍摄设备展示出来的效果完全不同,虽然从分割mask的结果看,眼球结构类似。近年来,大视觉模型(PVM,如 Vision Transformer)在自然图像领域展现了强大的特征表达能力。

2026-04-01 09:30:51 425

原创 【TMI2025】赋予AI医生“解耦思维”:基于概率属性学习(PAL)的皮肤病变分割框架拆解

在医学图像分割领域,近年来基于CNN和Vision Transformer(ViT)的模型层出不穷。然而,在面对皮肤病变(如黑色素瘤)时,这些模型往往面临着边界模糊、毛发遮挡、病灶颜色形态变化剧烈等严峻挑战。下图中(a) 是皮肤病变分割中的挑战性案例:第一行是颜色、形状和尺寸变化的挑战,第二行是模糊的边界,第三行是毛发遮挡,第四行是噪声干扰。真实的皮肤科医生是如何克服这些干扰的?

2026-03-31 09:00:26 407

原创 打破“像素级”扫描瓶颈:聚类驱动的4K图像恢复新范式 (解读 Scan Clusters, Not Pixels)

在图像恢复(Image Restoration)领域,如何在获得全局感受野的同时保持计算的高效性,始终是一个核心难题。从早期的卷积神经网络(CNN)到近年的视觉Transformer(ViT),算力与精度的博弈从未停止。最近,状态空间模型(State Space Models, SSMs,如Mamba)凭借其线性的计算复杂度(ON)备受瞩目。然而,面对超高清(Ultra-High-Definition, UHD,如4K)图像,即便复杂度降至ON。

2026-03-30 08:43:21 486

原创 【npj Digital Medicine2026】CFG-MambaNet在医疗图像分割中的频域与多尺度创新

在医疗图像分割领域,研究人员长期面临着一个被戏称为“不可能三角”的挑战:如何在一个模型中同时实现高效的全局上下文建模、高分辨率下的计算效率,以及对病灶边界的精准勾画。传统的卷积神经网络(CNN)擅长捕捉局部边界细节,但受限于感受野,难以进行全局建模;而Transformer虽然具备完美的全局自注意力机制,但其计算复杂度随图像分辨率呈二次方增长,难以高效处理高分辨率的医疗图像。

2026-03-24 07:02:46 433

原创 无需配对图文?解析MIT新视角:利用无配对多模态数据增强单模态表征

因此这篇论文在理论上画饼,如果要真刀真枪地做 ©,模型不能有分类头。它必须是一个底层的生成式大模型(比如一个共享的 Transformer Backbone),同时跑图像的“掩码重建(MAE)”和文本的“预测下一个词(Causal LM)”。工程实现上如果没有任何配对信号,也没有标签牵线搭桥,你把一堆毫不相干的纯图像像素和纯文本单词扔给同一个网络,网络极大概率会发生**“模态隔离(Modality Isolation)”

2026-03-20 08:29:47 439

原创 【Kimi最新技术报告解读】Attention Residual:用注意力机制重构Transformer残差连接

在现代大语言模型(LLM)的架构中,带有 PreNorm 的标准残差连接(Residual Connections)几乎是不可或缺的基石。然而,这一习以为常的基础结构是否存在底层的数学缺陷?2026年3月16日,Kimi 团队发布了技术报告《Attention Residuals》,直接向这一经典结构提出了挑战。该研究指出,传统的残差连接会导致深层网络出现严重的“幅值膨胀”与“信息稀释”问题。为此,作者提出了一种名为。

2026-03-19 06:58:28 688

原创 【TMI 2025】破解医学视觉基础模型的“高频盲区”——Frepa预训练框架解码

近年来,随着掩码自编码器(MAE)和对比学习(CLIP)的兴起,视觉基础模型在自然图像领域取得了令人瞩目的成就。然而,当这些模型被直接迁移到医学图像分析时,往往遭遇水土不服。发布在医学图像分析顶刊IEEE Transactions on Medical Imaging的一篇题为《Improving Representation of High-frequency Components for Medical Visual Foundation Models》的研究,精准定位了当前医学基础模型的缺陷——。

2026-03-18 09:04:26 372

原创 [AAAI2026]结合方向先验与空频联合域的医学图像分割解码器

在医学图像分割任务中,经典的 U-Net 及其衍生架构(如各种 Vision Transformer 变体)在全局上下文建模上已经取得了显著进展。然而,现有模型在处理极其微小的边缘细节、局部复杂纹理以及保持空间连续性时,依然存在瓶颈。特别是传统的跳跃连接(Skip Connections)往往采用简单的加法或拼接,容易将编码器中的背景噪声和冗余特征直接带入解码阶段。

2026-03-17 08:34:33 358

原创 从DFL到无NMS推理:一文拆解YOLO26背后的工程取舍与数学原理

因为矩阵是 3x3,但我们只用了2条线,线数(2)< 维度(3),说明目前的 0 还不够多,还没法达成完美的一对一分配。MuSGD 利用这一迭代,在几乎不增加额外显存负担的情况下,获取了包含平滑曲率信息的正交化梯度 ,使得 YOLO26 能够以更少的训练轮数(Epochs)稳定收敛。在模型优化方面,YOLO26 提出了 MuSGD 优化器,它结合了传统 SGD(随机梯度下降)的泛化能力,并吸收了常用于大语言模型(LLM)训练的Muon优化器思想 ,在KIMI2.5训练中就用到了Muon。

2026-03-14 12:04:40 694

原创 摒弃UNet Decoder!E-SegNet参数骤降却刷新8大医学分割数据集榜单

本文解读一篇发表在Research 2025(Science 合作期刊)的全新医学图像分割网络。

2026-03-11 08:42:25 357

原创 【MICCAI 2025 Oral】DC-Seg靠“特征解耦”完美破解磁共振缺模态魔咒

SSIM(Structural Similarity Index Measure,结构相似性指标) 是传统图像处理领域一个极其经典的指标,用来衡量两张图像有多“像”。它和常规误差(如 MSE 均方误差)的区别在于MSE 是“像素对像素”地算差值,如果把一张图整体调亮,虽然人眼看着还是同一个东西,但 MSE 会变得无限大。而 SSIM 是从“人类视觉系统”的角度出发的,它主要考量三个维度:亮度(Luminance)、对比度(Contrast)和 结构(Structure)。

2026-03-10 09:26:33 391

原创 【MIA2026】用“混合专家”重构 Mamba!Switch-UMamba如何破局2D 图像动态扫描

本文解读一篇由中科院深圳先进院、北大、鹏城实验室等机构联手打造的 Switch-UMamba,发表在医学人工智能顶刊Medical Image Analysis。!

2026-03-09 08:12:56 491

原创 [MICCAI2025]Mamba “吃掉”了你的高频边缘?看 PolyMamba 如何靠“频域双高斯滤波”打赢翻身仗!

本文介绍接收的论文《PolyMamba: Spatial-Prior Guided Mamba for Polyp Segmentation with High-Frequency Enhancement》。自从 Mamba(状态空间模型)横空出世,它凭借“拥有媲美 Transformer 的全局建模能力,却只有线性计算复杂度”的优势,迅速在计算机视觉领域掀起风暴。然而,把纯 Mamba 模型直接套用到结肠息肉分割任务中时,研究人员发现了两个致命的缺陷。

2026-03-08 09:39:18 489

原创 【ESA2026】告别暴力上采样!让 SAM 读懂视网膜:WaveRNet 的分层掩码与频域魔法

本文拆解一篇发表在人工智能领域顶级期刊上的最新重磅论文。在眼科疾病(如糖尿病视网膜病变、青光眼等)的自动诊断中,视网膜血管分割是不可或缺的基础环节。然而,当把在 A 医院(源域)训练好的模型拿到 B 医院(目标域)去用时,效果往往惨不忍睹。这种“水土不服”主要是由不同成像设备带来的光照不均和对比度差异(即域偏移 Domain Shift)造成的。目前大火的“分割一切模型” SAM (Segment Anything Model) 虽然具有惊人的零样本泛化能力,但在微小的血管面前却频频“翻车”。这篇名为。

2026-03-06 09:12:34 405

原创 【MICCAI2025】解决多专家标注分歧:形态学强化扩散模型 MoDiff 深度解析

同一张肺部 CT 结节或者脑部 MRI 病灶,四个不同的资深医生可能会画出四个不一样边界的轮廓。这种“金标准”本身就不唯一的情况,让 AI 模型在学习时无所适从。为了解决这个问题,基于扩散模型(Diffusion Models)的概率分割技术应运而生,但它们往往会导致生成的预测结果边缘模糊、形态不一致。如何让模型既能理解这种“模糊和不确定性”,又能画出清晰、符合人体解剖学形态的边界?这篇发表在MICCAI2025名为的论文给出了一套极具启发性的解决方案。

2026-03-05 08:10:49 479

原创 [MICCAI2025]看扩散模型如何“左脚踩右脚”实现成对生成?

本文拆解一篇发表在MICCAI2025上思路巧妙的论文《Paired image generation with diffusion-guided diffusion models》(基于扩散引导扩散模型的成对图像生成)。在医疗 AI 领域,我们常常陷入一个“死循环”:想要训练好模型,就需要海量带标注的数据;但请医生标注数据既昂贵又耗时,尤其是遇到那些病灶隐藏极深的影像。既然数据不够,我们能不能用时下最火的**扩散模型(Diffusion Models)**直接生成数据呢?!

2026-03-05 08:08:54 396

原创 [CVPR 2024]从 CT 到超声,一套代码全搞定?MADGNet 的通用化之路

(1)

2026-03-04 08:02:45 237

原创 【CVPR2026】医疗影像分割的新范式:从全量微调到 Token 级的“专家会诊”

在计算机视觉领域,Segment Anything Model (SAM) 的出现定义了通用分割的新高度。然而,医学影像的异质性——从 CT 的 Hounsfield 单位到 MRI 的多种加权序列,再到 X-ray 的投影重叠——使得直接迁移 SAM 面临巨大的域偏移挑战。目前的学术界主流做法往往陷入了“数据竞赛”,通过构建数以千万计的医疗数据集进行全参数或解码器微调。这种方式虽然提升了性能,却容易导致模型原始通用能力的丧失,且带来了高昂的计算成本与噪声干扰。

2026-03-02 09:48:08 909

原创 从Mamba v1到v3,详解状态空间模型(SSM)的破局与大一统

Mamba系列的演进是一条极为经典的“发现本质 -> 工程妥协 -> 理论自洽与能力补全”Mamba v1是破局者,它指出了“选择性(Selectivity)”是超越Attention的关键,但在硬件底层实现上,Scan操作是反直觉的。Mamba v2是极其高明的妥协与统一。为了迎合现代GPU生态(Tensor Core),它牺牲了一部分状态表达的自由度,但通过绝妙的SSD对偶理论,让SSM堂而皇之地享受到了Transformer的基础设施红利。Mamba v3则是大成之作。

2026-03-01 10:33:15 939

原创 [Nature 2025]只有25%的标注数据,医学大模型如何反超GPT-4o?一篇用GAN破解“数据荒”与“偏见”的佳作

做医疗AI的同行们,大概都经历过这样一种无奈:医院系统里躺着千万级别的电子病历(EHR),看似是一座数据金矿,但真要拿来训练模型时却发现,这座金矿根本挖不动。为什么?因为医生随手写的临床笔记是非结构化的,里面充满了极其丰富但也极度随意的病情推演。要想让模型看懂,就需要顶级的专科医生来做人工标注。但现实是,专科医生的时间比黄金还贵,海量标注根本不现实。退而求其次用系统里现成的ICD诊断编码吧,噪声又大得惊人,拿青光眼来说,ICD编码的特异性甚至不到50%。

2026-02-28 08:09:03 648

原创 Google 2026新论文(Magma)挑战直觉:我们真的需要每次都更新所有参数吗?

在当下的大语言模型训练领域,几乎所有的从业者都遵循着一个不言自明的行业标准:使用密集的适应性优化器(比如大名鼎鼎的 Adam)。既然反向传播算法能够高效地一次性计算出所有参数的梯度,我们理所当然地认为,在每一步迭代中对所有参数进行同步更新是效率最高的做法。相比之下,像坐标下降这种稀疏更新策略,由于与密集的梯度计算存在结构上的不匹配,极少被用于 LLM 的训练中。

2026-02-24 08:37:26 685

原创 【CVPR2025】 大处着眼,小处着手:LSNet 重新定义移动端视觉模型的“动静结合”艺术

本文解读一篇来自清华大学团队的CVPR2025论文《LSNet: See Large, Focus Small》,该文提出了一种非常具有启发性的轻量级视觉网络架构。本文就核心原理和代码实践进行解读。

2026-02-23 16:08:28 756

原创 卷积已死?不,是它“动”起来了:2025动态卷积技术深度解析

在深度学习领域,卷积神经网络(CNN)一直是计算机视觉的核心。然而,传统**静态卷积(Static Convolution)**面临着难以克服的局限性:一旦训练完成,卷积核权重即被锁定,无论输入是何种特征,都只能进行千篇一律的变换。本文通过2025年的最新研究(FDConv, TransXNet, LSNet等)展示了卷积的进化形态——。本文结合9篇论文,剖析卷积是如何实现从“死板”到“灵动”的飞跃,注意。

2026-02-23 11:51:38 631

原创 突破“网格”枷锁!耶鲁大学提出FunDiff:让扩散模型真正读懂连续物理世界

如果说扩散模型是“大脑”,那么**FAE(Function Autoencoder)**就是感知物理世界的“眼睛”和“手”。它是如何工作的?编码器(Encoder):采用了Vision Transformer (ViT) 与 Perceiver 模块的组合。ViT负责提取特征,而Perceiver通过一组可学习的“潜在查询(Latent queries)”,将不同分辨率、不同采样点的原始数据投影到统一的隐空间向量中。这使得模型具备了天然的分辨率无关性。解码器(Decoder):这是连续性的关键。

2026-02-21 09:05:47 708

原创 【无标题】

结直肠癌(CRC)是全球第三大常见恶性肿瘤,而内镜下息肉切除术是预防 CRC、降低死亡率的关键手段。然而,结肠镜检查环境复杂,低对比度、光照不均以及手术器械的干扰常导致诊断精度受限。近日,来自哈尔滨工业大学等研究机构的团队提出了一种名为的新型深度学习网络,通过融合与,实现了息肉与手术器械的高精度、实时分割。,本文对其原理和核心模块代码进行解读。

2026-02-20 10:39:11 656

DataSocket技术在网络化测试中的应用

基于Labview的DataSocket编程,快速构建网络化资源,使用基于VC的快速Active控件

2010-08-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除