CVPR'24 | 视觉-语言模型在医学异常检测中的创新应用-CSDN博客

点击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：dddvision，备注：方向+学校/公司+昵称，拉你入群。文末附行业细分群

扫描下方二维码，加入3D视觉知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门视频课程（星球成员免费学习）、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

论文题目：Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images

作者：Chaoqin Huang, Aofan Jiang等

作者机构：Shanghai Jiao Tong University等

论文链接：https://arxiv.org/pdf/2403.12570.pdf

代码链接：https://github.com/MediaBrain-SJTU/MVFA-AD

篇论文介绍了一种针对医学图像中异常检测的新方法，利用了最近发展的大规模视觉-语言预训练模型。该方法通过将多个残余适配器集成到预训练的视觉编码器中，并使用多级像素级视觉-语言特征对齐损失函数，实现了对不同级别的视觉特征逐步增强。这种多级适应使得模型能够在医学图像中实现更好的泛化能力，甚至在零样本场景下也能够处理未见过的医学模态和解剖区域。实验证明，该方法在医学异常检测方面显著优于当前最先进的模型，在零样本和少样本设置下，平均AUC的改善分别为6.24%和7.33%，异常分割的改善分别为2.03%和2.37%。

读者理解：

本文介绍了一种将自然图像领域中的视觉-语言模型迁移到医学图像领域进行异常检测的方法。通过在医学数据集上进行适应性训练，使得模型可以在未见过的医学图像上进行准确的异常检测。文章提出了一种多级特征适应方法，将自然图像特征转化为医学图像特征，并通过特征对齐实现像素级别的异常分割。实验结果表明，该方法在零/少样本AC和AS任务上表现出色，展示了其在医学图像分析中的潜在应用前景。

1 引言

这篇论文介绍了一种针对医学图像中异常检测的新方法，利用了最近发展的大规模视觉-语言预训练模型。该方法通过将多个残余适配器集成到预训练的视觉编码器中，并使用多级像素级视觉-语言特征对齐损失函数，将CLIP模型的特征重新调整到医学背景下的异常检测需求。在医学异常检测基准上的实验表明，该方法在零样本和少样本情况下显著优于当前最先进的方法，平均提高了6.24%至7.33%的异常分类准确率，以及2.03%至2.37%的异常分割准确率。该方法的主要贡献包括提出了一种新颖的多级特征适应框架，并展示了其在医学图像中的异常泛化能力。

本文贡献：

提出了一种新颖的多级特征适应框架，据作者所知，这是首次尝试将预训练的视觉-语言模型调整为零/少样本情况下的医学AD。
对医学图像中AD的一个具有挑战性的基准进行了广泛的实验，证明了其在不同数据模态和解剖区域中的异常泛化能力。

2 问题表述

这部分介绍了如何将一个最初在自然图像上训练的视觉-语言模型调整为在医学图像中进行异常检测的模型。通过利用医学训练数据集，该方法能够将模型从自然图像转变为适用于医学图像的模型。具体来说，该方法包括使用带注释的医学数据集进行预训练，并通过零样本学习和少样本学习来评估模型在未见情况下的泛化能力。最终提出了一个多级适应和比较框架，用于医学图像中的异常检测。

3 训练：多级特征适应

这部分介绍了一种用于医学图像中异常检测的训练方法，采用了多级特征适应框架，旨在利用最少的数据和轻量级的多级特征适配器来调整预训练的自然图像视觉-语言模型。该方法通过在CLIP的视觉分支上附加可学习的瓶颈线性层，保持其原始主干不变，从而实现在多个特征级别上的适应。具体来说，该方法包括三个特征适配器和一个特征投影器，在不同级别上应用学习的特征适配器，通过多级，像素级的视觉-语言特征对齐损失函数，调整模型的焦点，从而使其能够在医学图像中识别异常。最终，实验结果表明，该方法在医学异常检测中表现优异，显著优于当前最先进的方法。

4 测试：多级特征比较

在测试阶段，为了准确预测图像级别（AC）和像素级别（AS）的异常，该方法采用了一个双分支多级特征比较架构，包括零样本分支和少样本分支。零样本分支通过MVFA处理测试图像，产生多级适应特征，并将这些特征与文本特征进行比较。

5 实验

这篇实验主要介绍了一种用于医学图像异常检测的方法，通过多级特征适应和比较，实现了在图像级别和像素级别准确预测异常的目标。实验包括了数据集、竞争方法和基线、评估协议、模型配置和训练细节、与现有方法的比较、消融研究等内容。

数据集：使用了基于BMAD的医学异常检测基准，涵盖了五个不同的医学领域，共六个数据集，包括脑部MRI、肝脏CT、视网膜OCT、胸部X射线和数字组织病理学。
竞争方法和基线：考虑了各种最先进的AD方法，包括使用所有正常数据的基本方法、少数正常样本方法和少样本方法。
评估协议：使用ROC曲线下面积（AUC）指标来衡量性能，分别对AC和AS进行评估。
模型配置和训练细节：使用CLIP与ViT-L/14架构，在分辨率为240的输入图像上进行训练，使用Adam优化器，学习率为1e-3，批大小为16，在一块NVIDIA GeForce RTX 3090 GPU上进行50个epoch的训练。
与现有方法的比较：在少样本情况下，与DRA、BGAD和April-GAN等方法相比，MVFA表现出更好的性能，特别是在AC方面超过了VAND研讨会在CVPR 2023上的获胜者April-GAN。
消融研究：进行了特征适应与特征对齐的消融研究，结果显示特征适应对于提高跨模态泛化能力至关重要。

6 总结

本文介绍了一种将自然领域中预训练的视觉-语言模型应用于医学异常检测的方法。通过跨领域泛化，该方法适用于不同的医学图像模态和解剖区域。具体而言，本文提出了一种多级特征适应方法，通过视觉-语言对齐指导每个适应过程，实现从高级语义到像素级分割的转变。此外，结合基于比较的异常检测策略，该方法能够灵活适应具有实质性模态和分布差异的数据集。实验结果表明，该方法在零/少样本AC和AS任务上表现优异，展示了未来研究的潜在价值。

本文仅做学术分享，如有侵权，请联系删文。

3D视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型：NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

除了这些，还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

添加小助理: dddvision，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

▲长按扫码添加助理

3D视觉工坊知识星球

3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括：星球视频课程近20门（价值超6000）、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球，一起学习进步。

▲长按扫码加入星球

3D视觉工坊官网：www.3dcver.com

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪，无人机等。

▲长按扫码学习3D视觉精品课程

3D视觉相关硬件

图片	说明	名称
	硬件+源码+视频教程	精迅V1(科研级)）单目/双目3D结构光扫描仪
	硬件+源码+视频教程	深迅V13D线结构光三维扫描仪
	硬件+源码+视频教程	御风250无人机(基于PX4)
	硬件+源码	工坊智能ROS小车
	配套标定源码	高精度标定板(玻璃or大理石)
添加微信:cv3d007或者QYong2014 咨询更多