- 博客(375)
- 资源 (1)
- 收藏
- 关注
原创 Deformable Mamba:广角图像分割新思路
在计算机视觉的密集预测任务(如语义分割)中,状态空间模型(SSM,如 Mamba)凭借其线性的计算复杂度,正逐渐成为 Transformer 的有力竞争者。然而,当我们把目光从标准的针孔相机转向广角相机(如 180° 鱼眼或 360° 全景)时,现有的视觉 Mamba 模型往往会出现问题。本文将深度解析发表于 2025 年的一篇具有工程实用价值的论文——。作者提出了一种轻量级的。它不仅将参数量和计算量大幅压缩,还作为一种“即插即用”的插件,赋予了常规骨干网络处理广角畸变的能力。
2026-04-06 07:33:13
381
原创 【CVPR2025】DefMamba突破固定扫描的枷锁的可变形视觉状态空间模型
的路径。这种做法就像是“刻舟求剑”:无论图像内容是什么,模型都按死板的路线走。这导致空间上相邻的像素在展平后可能相距甚远,从而丢失了图像原有的几何结构信息。为了解决这一痛点,论文提出。
2026-04-05 18:07:11
200
原创 轻量级超分的双频域协同:深入源码解析 DMNet 架构设计
在边缘计算设备(如手机、无人机)上部署图像超分辨率(SR)模型时,算法工程师常常面临一个权衡:如何在极其有限的计算资源(低参数量、低 FLOPs)下,尽可能恢复出高保真的图像细节?现有的轻量级超分网络大多局限于空间域(Spatial Domain)进行操作,这天然限制了模型的感受野,导致难以捕捉全局结构。为了打破这一限制,研究者开始引入频域(如傅里叶域或小波域)信息。。本文将结合论文作者开源的源码,深入拆解 DMNet 的底层逻辑,并提供核心模块的可插拔代码与详细注释,探讨其在工业界落地的潜力与局限。
2026-04-04 15:33:56
366
原创 【ICLR2026】视觉状态空间模型的效率重构:SF-Mamba解析
近年来,基于状态空间模型(State Space Model, SSM,如 Mamba)的视觉架构,因其具备线性的计算复杂度,成为了视觉 Transformer(ViT)的重要补充。然而,在实际工程落地中,视觉 Mamba 往往面临两个严峻的效率阻碍:一是为获取二维空间信息而采用的多向扫描(Multi-directional scan)不仅逻辑复杂,且伴随高昂的内存重排开销;二是 Mamba 底层算子在处理视觉任务常见的短序列时,硬件并行利用率不足。
2026-04-03 09:11:31
282
1
原创 【IEEE TGRS (2026)】WESSP-Mamba:基于小波先验注入的 Mamba 图像超分网络深度解析
在高光谱图像(Hyperspectral Image, HSI)的处理任务中,超分辨率重建(HSI-SR)是提升遥感图像空间分辨率的重要技术。近年来,基于状态空间模型(如 Mamba)的架构因其线性的计算复杂度,在序列建模中展现出显著优势。然而,将 Mamba 应用于高光谱图像超分时,网络在特征提取过程中容易出现空间-光谱细节丢失的问题。近期,发表于遥感领域顶级期刊。
2026-04-02 07:12:11
384
原创 【IEEE TNNLS 2025】赋予大模型“跨院行医”的能力:基于全局与局部提示的医学图像泛化框架 (GLP) 解析
在医学图像分割的临床落地中,一个长期存在的痛点是**“领域偏移 (Domain Shift)”**。一个在A医院(源域)表现完美的深度学习模型,当部署到使用不同成像设备、不同扫描参数的B医院(未知目标域)时,往往会遭遇性能的断崖式下跌。如图1所示,同样的糖尿病视网膜病变影像由于不同的拍摄设备展示出来的效果完全不同,虽然从分割mask的结果看,眼球结构类似。近年来,大视觉模型(PVM,如 Vision Transformer)在自然图像领域展现了强大的特征表达能力。
2026-04-01 09:30:51
375
原创 【TMI2025】赋予AI医生“解耦思维”:基于概率属性学习(PAL)的皮肤病变分割框架拆解
在医学图像分割领域,近年来基于CNN和Vision Transformer(ViT)的模型层出不穷。然而,在面对皮肤病变(如黑色素瘤)时,这些模型往往面临着边界模糊、毛发遮挡、病灶颜色形态变化剧烈等严峻挑战。下图中(a) 是皮肤病变分割中的挑战性案例:第一行是颜色、形状和尺寸变化的挑战,第二行是模糊的边界,第三行是毛发遮挡,第四行是噪声干扰。真实的皮肤科医生是如何克服这些干扰的?
2026-03-31 09:00:26
369
原创 打破“像素级”扫描瓶颈:聚类驱动的4K图像恢复新范式 (解读 Scan Clusters, Not Pixels)
在图像恢复(Image Restoration)领域,如何在获得全局感受野的同时保持计算的高效性,始终是一个核心难题。从早期的卷积神经网络(CNN)到近年的视觉Transformer(ViT),算力与精度的博弈从未停止。最近,状态空间模型(State Space Models, SSMs,如Mamba)凭借其线性的计算复杂度(ON)备受瞩目。然而,面对超高清(Ultra-High-Definition, UHD,如4K)图像,即便复杂度降至ON。
2026-03-30 08:43:21
445
原创 【npj Digital Medicine2026】CFG-MambaNet在医疗图像分割中的频域与多尺度创新
在医疗图像分割领域,研究人员长期面临着一个被戏称为“不可能三角”的挑战:如何在一个模型中同时实现高效的全局上下文建模、高分辨率下的计算效率,以及对病灶边界的精准勾画。传统的卷积神经网络(CNN)擅长捕捉局部边界细节,但受限于感受野,难以进行全局建模;而Transformer虽然具备完美的全局自注意力机制,但其计算复杂度随图像分辨率呈二次方增长,难以高效处理高分辨率的医疗图像。
2026-03-24 07:02:46
364
原创 无需配对图文?解析MIT新视角:利用无配对多模态数据增强单模态表征
因此这篇论文在理论上画饼,如果要真刀真枪地做 ©,模型不能有分类头。它必须是一个底层的生成式大模型(比如一个共享的 Transformer Backbone),同时跑图像的“掩码重建(MAE)”和文本的“预测下一个词(Causal LM)”。工程实现上如果没有任何配对信号,也没有标签牵线搭桥,你把一堆毫不相干的纯图像像素和纯文本单词扔给同一个网络,网络极大概率会发生**“模态隔离(Modality Isolation)”
2026-03-20 08:29:47
382
原创 【Kimi最新技术报告解读】Attention Residual:用注意力机制重构Transformer残差连接
在现代大语言模型(LLM)的架构中,带有 PreNorm 的标准残差连接(Residual Connections)几乎是不可或缺的基石。然而,这一习以为常的基础结构是否存在底层的数学缺陷?2026年3月16日,Kimi 团队发布了技术报告《Attention Residuals》,直接向这一经典结构提出了挑战。该研究指出,传统的残差连接会导致深层网络出现严重的“幅值膨胀”与“信息稀释”问题。为此,作者提出了一种名为。
2026-03-19 06:58:28
562
原创 【TMI 2025】破解医学视觉基础模型的“高频盲区”——Frepa预训练框架解码
近年来,随着掩码自编码器(MAE)和对比学习(CLIP)的兴起,视觉基础模型在自然图像领域取得了令人瞩目的成就。然而,当这些模型被直接迁移到医学图像分析时,往往遭遇水土不服。发布在医学图像分析顶刊IEEE Transactions on Medical Imaging的一篇题为《Improving Representation of High-frequency Components for Medical Visual Foundation Models》的研究,精准定位了当前医学基础模型的缺陷——。
2026-03-18 09:04:26
348
原创 [AAAI2026]结合方向先验与空频联合域的医学图像分割解码器
在医学图像分割任务中,经典的 U-Net 及其衍生架构(如各种 Vision Transformer 变体)在全局上下文建模上已经取得了显著进展。然而,现有模型在处理极其微小的边缘细节、局部复杂纹理以及保持空间连续性时,依然存在瓶颈。特别是传统的跳跃连接(Skip Connections)往往采用简单的加法或拼接,容易将编码器中的背景噪声和冗余特征直接带入解码阶段。
2026-03-17 08:34:33
276
原创 从DFL到无NMS推理:一文拆解YOLO26背后的工程取舍与数学原理
因为矩阵是 3x3,但我们只用了2条线,线数(2)< 维度(3),说明目前的 0 还不够多,还没法达成完美的一对一分配。MuSGD 利用这一迭代,在几乎不增加额外显存负担的情况下,获取了包含平滑曲率信息的正交化梯度 ,使得 YOLO26 能够以更少的训练轮数(Epochs)稳定收敛。在模型优化方面,YOLO26 提出了 MuSGD 优化器,它结合了传统 SGD(随机梯度下降)的泛化能力,并吸收了常用于大语言模型(LLM)训练的Muon优化器思想 ,在KIMI2.5训练中就用到了Muon。
2026-03-14 12:04:40
557
原创 摒弃UNet Decoder!E-SegNet参数骤降却刷新8大医学分割数据集榜单
本文解读一篇发表在Research 2025(Science 合作期刊)的全新医学图像分割网络。
2026-03-11 08:42:25
306
原创 【MICCAI 2025 Oral】DC-Seg靠“特征解耦”完美破解磁共振缺模态魔咒
SSIM(Structural Similarity Index Measure,结构相似性指标) 是传统图像处理领域一个极其经典的指标,用来衡量两张图像有多“像”。它和常规误差(如 MSE 均方误差)的区别在于MSE 是“像素对像素”地算差值,如果把一张图整体调亮,虽然人眼看着还是同一个东西,但 MSE 会变得无限大。而 SSIM 是从“人类视觉系统”的角度出发的,它主要考量三个维度:亮度(Luminance)、对比度(Contrast)和 结构(Structure)。
2026-03-10 09:26:33
365
原创 【MIA2026】用“混合专家”重构 Mamba!Switch-UMamba如何破局2D 图像动态扫描
本文解读一篇由中科院深圳先进院、北大、鹏城实验室等机构联手打造的 Switch-UMamba,发表在医学人工智能顶刊Medical Image Analysis。!
2026-03-09 08:12:56
401
原创 [MICCAI2025]Mamba “吃掉”了你的高频边缘?看 PolyMamba 如何靠“频域双高斯滤波”打赢翻身仗!
本文介绍接收的论文《PolyMamba: Spatial-Prior Guided Mamba for Polyp Segmentation with High-Frequency Enhancement》。自从 Mamba(状态空间模型)横空出世,它凭借“拥有媲美 Transformer 的全局建模能力,却只有线性计算复杂度”的优势,迅速在计算机视觉领域掀起风暴。然而,把纯 Mamba 模型直接套用到结肠息肉分割任务中时,研究人员发现了两个致命的缺陷。
2026-03-08 09:39:18
406
原创 【ESA2026】告别暴力上采样!让 SAM 读懂视网膜:WaveRNet 的分层掩码与频域魔法
本文拆解一篇发表在人工智能领域顶级期刊上的最新重磅论文。在眼科疾病(如糖尿病视网膜病变、青光眼等)的自动诊断中,视网膜血管分割是不可或缺的基础环节。然而,当把在 A 医院(源域)训练好的模型拿到 B 医院(目标域)去用时,效果往往惨不忍睹。这种“水土不服”主要是由不同成像设备带来的光照不均和对比度差异(即域偏移 Domain Shift)造成的。目前大火的“分割一切模型” SAM (Segment Anything Model) 虽然具有惊人的零样本泛化能力,但在微小的血管面前却频频“翻车”。这篇名为。
2026-03-06 09:12:34
374
原创 【MICCAI2025】解决多专家标注分歧:形态学强化扩散模型 MoDiff 深度解析
同一张肺部 CT 结节或者脑部 MRI 病灶,四个不同的资深医生可能会画出四个不一样边界的轮廓。这种“金标准”本身就不唯一的情况,让 AI 模型在学习时无所适从。为了解决这个问题,基于扩散模型(Diffusion Models)的概率分割技术应运而生,但它们往往会导致生成的预测结果边缘模糊、形态不一致。如何让模型既能理解这种“模糊和不确定性”,又能画出清晰、符合人体解剖学形态的边界?这篇发表在MICCAI2025名为的论文给出了一套极具启发性的解决方案。
2026-03-05 08:10:49
432
原创 [MICCAI2025]看扩散模型如何“左脚踩右脚”实现成对生成?
本文拆解一篇发表在MICCAI2025上思路巧妙的论文《Paired image generation with diffusion-guided diffusion models》(基于扩散引导扩散模型的成对图像生成)。在医疗 AI 领域,我们常常陷入一个“死循环”:想要训练好模型,就需要海量带标注的数据;但请医生标注数据既昂贵又耗时,尤其是遇到那些病灶隐藏极深的影像。既然数据不够,我们能不能用时下最火的**扩散模型(Diffusion Models)**直接生成数据呢?!
2026-03-05 08:08:54
380
原创 【CVPR2026】医疗影像分割的新范式:从全量微调到 Token 级的“专家会诊”
在计算机视觉领域,Segment Anything Model (SAM) 的出现定义了通用分割的新高度。然而,医学影像的异质性——从 CT 的 Hounsfield 单位到 MRI 的多种加权序列,再到 X-ray 的投影重叠——使得直接迁移 SAM 面临巨大的域偏移挑战。目前的学术界主流做法往往陷入了“数据竞赛”,通过构建数以千万计的医疗数据集进行全参数或解码器微调。这种方式虽然提升了性能,却容易导致模型原始通用能力的丧失,且带来了高昂的计算成本与噪声干扰。
2026-03-02 09:48:08
776
原创 从Mamba v1到v3,详解状态空间模型(SSM)的破局与大一统
Mamba系列的演进是一条极为经典的“发现本质 -> 工程妥协 -> 理论自洽与能力补全”Mamba v1是破局者,它指出了“选择性(Selectivity)”是超越Attention的关键,但在硬件底层实现上,Scan操作是反直觉的。Mamba v2是极其高明的妥协与统一。为了迎合现代GPU生态(Tensor Core),它牺牲了一部分状态表达的自由度,但通过绝妙的SSD对偶理论,让SSM堂而皇之地享受到了Transformer的基础设施红利。Mamba v3则是大成之作。
2026-03-01 10:33:15
771
原创 [Nature 2025]只有25%的标注数据,医学大模型如何反超GPT-4o?一篇用GAN破解“数据荒”与“偏见”的佳作
做医疗AI的同行们,大概都经历过这样一种无奈:医院系统里躺着千万级别的电子病历(EHR),看似是一座数据金矿,但真要拿来训练模型时却发现,这座金矿根本挖不动。为什么?因为医生随手写的临床笔记是非结构化的,里面充满了极其丰富但也极度随意的病情推演。要想让模型看懂,就需要顶级的专科医生来做人工标注。但现实是,专科医生的时间比黄金还贵,海量标注根本不现实。退而求其次用系统里现成的ICD诊断编码吧,噪声又大得惊人,拿青光眼来说,ICD编码的特异性甚至不到50%。
2026-02-28 08:09:03
615
原创 Google 2026新论文(Magma)挑战直觉:我们真的需要每次都更新所有参数吗?
在当下的大语言模型训练领域,几乎所有的从业者都遵循着一个不言自明的行业标准:使用密集的适应性优化器(比如大名鼎鼎的 Adam)。既然反向传播算法能够高效地一次性计算出所有参数的梯度,我们理所当然地认为,在每一步迭代中对所有参数进行同步更新是效率最高的做法。相比之下,像坐标下降这种稀疏更新策略,由于与密集的梯度计算存在结构上的不匹配,极少被用于 LLM 的训练中。
2026-02-24 08:37:26
650
原创 【CVPR2025】 大处着眼,小处着手:LSNet 重新定义移动端视觉模型的“动静结合”艺术
本文解读一篇来自清华大学团队的CVPR2025论文《LSNet: See Large, Focus Small》,该文提出了一种非常具有启发性的轻量级视觉网络架构。本文就核心原理和代码实践进行解读。
2026-02-23 16:08:28
686
原创 卷积已死?不,是它“动”起来了:2025动态卷积技术深度解析
在深度学习领域,卷积神经网络(CNN)一直是计算机视觉的核心。然而,传统**静态卷积(Static Convolution)**面临着难以克服的局限性:一旦训练完成,卷积核权重即被锁定,无论输入是何种特征,都只能进行千篇一律的变换。本文通过2025年的最新研究(FDConv, TransXNet, LSNet等)展示了卷积的进化形态——。本文结合9篇论文,剖析卷积是如何实现从“死板”到“灵动”的飞跃,注意。
2026-02-23 11:51:38
578
原创 突破“网格”枷锁!耶鲁大学提出FunDiff:让扩散模型真正读懂连续物理世界
如果说扩散模型是“大脑”,那么**FAE(Function Autoencoder)**就是感知物理世界的“眼睛”和“手”。它是如何工作的?编码器(Encoder):采用了Vision Transformer (ViT) 与 Perceiver 模块的组合。ViT负责提取特征,而Perceiver通过一组可学习的“潜在查询(Latent queries)”,将不同分辨率、不同采样点的原始数据投影到统一的隐空间向量中。这使得模型具备了天然的分辨率无关性。解码器(Decoder):这是连续性的关键。
2026-02-21 09:05:47
662
原创 【无标题】
结直肠癌(CRC)是全球第三大常见恶性肿瘤,而内镜下息肉切除术是预防 CRC、降低死亡率的关键手段。然而,结肠镜检查环境复杂,低对比度、光照不均以及手术器械的干扰常导致诊断精度受限。近日,来自哈尔滨工业大学等研究机构的团队提出了一种名为的新型深度学习网络,通过融合与,实现了息肉与手术器械的高精度、实时分割。,本文对其原理和核心模块代码进行解读。
2026-02-20 10:39:11
646
原创 AAAI 2025 | 扩散模型+信息瓶颈:解决AI归因图“模糊”难题的新范式
利用扩散模型的噪声性质,可以优雅地解决高维数据的互信息计算难题。对于医疗影像分析(通过CT找病灶)、自动驾驶(分析识别盲区)等对精确度要求极高的领域,这种像素级的可解释性方法将具有巨大的应用潜力。
2026-02-11 08:28:19
422
原创 医疗 AI 如何说“我不知道”?详解 CLEAR-Mamba 的不确定性量化机制
在狄利克雷分布中,全 1 代表“完全无知”(Zero Evidence),而全 0 在数学上是未定义的(非法值)。证据与参数的关系:在证据深度学习(EDL)中,狄利克雷分布的参数α\alphaα与模型输出的“证据”eeeαkek1αkek1eke_kek(Evidence):模型在特征图中找到的支持第kkk类的证据量,必须≥0\ge 0≥0。完全无知状态:意味着模型什么证据都没找到,即ek0e_k = 0ek0。代入公式αk0。
2026-02-08 08:46:51
563
原创 漂移模型:高质量一步生成(2026年2月何凯明团队新作)
漂移场是一个关于空间位置x的漂移场是一个关于空间位置xxx的函数,它决定了样本在训练迭代中的移动方向和距离。xi1xiVpqixixi1xiVpqixi其中,xix_ixi是当前模型生成的样本。漂移场VVV的存在逻辑是:它根据数据分布ppp和生成分布qqq之间的差异来计算每一个样本应该如何“漂移”。
2026-02-07 08:28:21
545
原创 破解红外“魅影”难题:WMRNet 如何以频率分析与二阶差分重塑小目标检测?
在现代遥感与预警系统中,红外小目标检测(IRSTD)被公认为一项极具挑战性的任务。不同于常规的目标识别,红外图像中的目标往往仅占数个像素,不仅缺乏纹理信息,还极易淹没在复杂的背景噪声与云层干扰中。为了突破现有技术的瓶颈,西安电子科技大学与重庆邮电大学的研究团队2025 年 12 月 12 日在IEEE Transactions on Image Processing提出了一种名为的新型网络架构。本文对其进行解读,补充必要的数学背景,由于论文没有开源代码,我尝试复现核心模块,并封装成可插拔模块。
2026-01-30 11:46:51
648
原创 放弃自注意力?北大/清华提出 WaveFormer:用物理波动方程重塑视觉骨干网
视觉建模的尽头只能是 Transformer 吗?或许,大自然早已在物理规律中写好了答案。最近,一篇2026 年 1 月挂在arXiv的论文引起了广泛关注。它提出了一种名为的新型视觉骨干网络,彻底颠覆了我们看待图像特征的方式。不同于传统的堆叠算子,WaveFormer 引入了一个其核心灵魂在于借用了物理学中的。传统的扩散模型或基于热方程的方法本质上是“各向同性”的强力低通滤波器,会导致高频细节(边缘、纹理)随深度增加而迅速模糊。而 WaveFormer 利用波动方程的。
2026-01-30 09:57:48
688
原创 YOLOv1-v26实时目标检测架构的演进思想与技术
本文系统地梳理了从2016年诞生到2026年预见性的十年演进历程。文章核心聚焦于从传统的“分治法”向的哲学转变,详细解析了各代版本如何通过优化主干网络、引入及后续转向,在检测精度与推理速度之间寻找动态平衡。技术演进的主线涵盖了、梯度信息保护以及最终消除与极致推理效率发展的未来工业趋势。
2026-01-27 17:58:21
1067
原创 MedSegDiff:基于扩散模型的医学图像分割
本文系统分析了两代基于扩散模型的医学图像分割方法:MedSegDiff和MedSegDiff-V2。MedSegDiff首次将去噪扩散概率模型(DPM)应用于医学图像分割,通过动态条件编码和FF-Parser模块解决了病灶边界模糊问题。MedSegDiff-V2则创新性地将Transformer与扩散模型结合,提出锚点条件和频谱空间Transformer架构,在20项任务中刷新性能记录,同时显著提升推理效率。两代模型的核心差异体现在:V1采用ResUNet架构,专注高频噪声抑制;V2引入ViT骨干,通过U-
2026-01-27 11:37:24
631
原创 【Nature 2025】**LCTfound** :肺部 CT 视觉基础模型
本文发表在Nature Communications 2025,设计一个名为 LCTfound 的肺部 CT 视觉基础模型,它通过大规模的自监督学习,旨在成为肺部影像诊断与处理的通用智能平台。作者主要来自清华大学、复旦大学、广州医科大学第一附属医院等单位,背靠国家支持,资源和团队都比较豪华,训练集直接来自五个医院收集,验证集才使用开源数据集,算力直接上天河二号超算平台,文章撰写和配图都很漂亮,这不是常规科研机构能做到的,因此本文先概述下文章大意,然后主要从代码角度去分析模型原理,本研究展示了DDPM 如何同
2026-01-26 14:25:29
960
原创 Google医疗大模型MedGemma本地部署实测
MedGemma 1.5 (4B)是Google公司于2026年1月14日面向开发者的基础医疗多模态大模型(非临床诊断工具),本文对本地如何部署该模型进行详细说明,并开发了完整的web-UI界面方便使用,代码见下文,支持:1.纯文本问答2.单图提问3.多图连续追问。
2026-01-24 16:00:43
1098
原创 [Nature 2026]AFLoc:一种用于通用无标注病理局部定位的多模态视觉‑语言模型
AFLoc:基于多模态对齐的医疗影像无监督病灶定位方法 摘要:Nature最新发表的AFLoc模型创新性地通过多层级语义对齐技术,实现了无需人工标注的医疗影像病灶定位。该模型将医学影像的局部特征与临床报告文本进行三级对齐(单词级、句子级、报告级),在胸部X光、眼底图像等多种模态上展现出卓越的跨场景泛化能力。实验证明,AFLoc不仅超越了现有自监督方法的定位精度,还能显著提升临床诊断效率(准确率+8.7%,阅片时间缩短20.5%)。研究采用ResNet-50和BioClinicalBERT分别提取图像与文本特
2026-01-23 08:33:58
894
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅