点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:3D视觉工坊
添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
扫描下方二维码,加入「3D视觉从入门到精通」知识星球(点开有惊喜),星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
0.这篇文章干了啥?
这篇文章提出了一种改进的CLIP模型,称为AA-CLIP,旨在解决CLIP在处理异常检测任务时的“异常无知”问题。作者通过引入残差适配器和两阶段训练策略,使得模型能够在保持CLIP强大泛化能力的同时,有效地识别异常,并且能够清晰地区分已知类别和新出现类别的异常表现。实验结果表明,AA-CLIP在多个数据集上实现了零-shot异常检测的优异表现,超越了现有的最先进方法,尤其在数据有限的情况下也能保持高效的性能。此外,文章还探讨了该方法在解决CLIP其他“无知”问题方面的潜力。
下面一起来阅读一下这项工作~
1. 论文信息
论文题目:AA-CLIP: Enhancing Zero-Shot Anomaly Detection via Anomaly-Aware CLIP
作者:Wenxin Ma,Xu Zhang等
作者机构:School of Biomedical Engineering, Division of Life Sciences and Medicine, USTC等
论文链接:https://arxiv.org/pdf/2503.06661
2. 摘要
异常检测(AD)用于识别应用中的异常值,如缺陷和病变检测。虽然CLIP凭借其强大的泛化能力在零-shot异常检测任务中展现了潜力,但其固有的异常不可感知特性导致正常和异常特征之间的区分能力有限。为了解决这个问题,我们提出了异常感知CLIP(AA-CLIP),它增强了CLIP在文本和视觉空间中的异常区分能力,同时保持其泛化能力。AA-CLIP通过一种简单但有效的两阶段方法实现:首先创建异常感知文本锚点,以清晰地区分正常和异常语义,然后将图像块级视觉特征与这些锚点对齐,以实现精确的异常定位。通过残差适配器的帮助,这一两阶段策略逐步以可控的方式适配CLIP,在保持CLIP类别知识的同时实现有效的异常检测。大量实验验证了AA-CLIP作为一种资源高效的解决方案,在工业和医疗应用中实现了最先进的结果。代码可在https://github.com/Mwxinnn/AA-CLIP获得。
3. 效果展示
原始CLIP与AA-CLIP文本特征的t-SNE可视化。每个点表示从提示编码的文本特征。原始CLIP的正常和异常文本特征交织在一起,而我们的方法有效地解开了它们。这种解纠缠可推广到新的类,验证了我们的模型的异常意识。
原始CLIP、AnomalyCLIP、VAND和我们的AA-CLIP的异常定位结果的可视化。与以往的方法相比,AA-CLIP在定位异常方面表现出更可靠的预测能力。

4. 主要贡献
异常感知CLIP,增强和可泛化的异常区分能力。我们提出了AA-CLIP,它在文本和视觉空间中逐步增强了对异常的敏感性,将异常感知信息编码到原始CLIP中。
使用残差适配器的高效适配。我们实现了简单的残差适配器,在不妥协模型泛化能力的情况下,提升了零-shot异常检测性能。
在高训练效率下达到SOTA性能。我们的方法在多样化数据集上达到了SOTA结果,展示了即使在有限的训练样本下,也能展现出强大的异常检测能力。
5. 基本原理是啥?
本研究的基本原理是通过引入一种二阶段训练策略,解决CLIP模型中存在的“异常无知”问题。具体来说,该方法的核心在于将异常感知信息嵌入CLIP模型,以便能够清晰地区分已见类别和新颖类别中的异常表示。推荐课程:工业视觉检测如何检测低对比度缺陷?
异常无知问题:CLIP模型在原始设计中,缺乏处理异常的能力,即对“异常”信息的感知不够敏感,这导致它在异常检测任务中的表现较差。
二阶段训练策略:通过二阶段的训练过程,逐步将异常感知信息引入CLIP模型。第一阶段主要进行基础的训练,第二阶段则进一步调整,使模型能够在特征空间中准确地区分正常和异常的样本。二阶段的训练帮助保持CLIP的强泛化能力,并且提高了它在异常检测任务中的表现。
残差适配器:为了避免二阶段训练过程中损失CLIP的原始泛化能力,研究者引入了残差适配器。这些适配器能确保CLIP在适应新任务时,不会丧失其原本的分类能力,从而保留其强大的多任务学习特性。
异常感知信息的引入:通过对CLIP的文本和视觉编码器进行适当调整,特别是利用残差适配器,模型能够更好地识别和区分异常样本。这不仅提高了异常检测性能,也为后续任务中的模型应用提供了更好的基础。
通过这种方法,CLIP模型能够更有效地进行异常检测,并且能够适应更广泛的任务,解决了原有的“异常无知”问题。同时,这项工作为其他类似问题的解决提供了一个新的思路,比如在上下文感知或领域特定细节上的“无知”问题。



6. 实验结果
与最先进方法的比较
比较模型:AA-CLIP与多个现有的最先进方法(如CLIP、WinCLIP、VAND、MVFA-AD等)进行了比较。为了保证公平性,实验中重新训练了不同数据集上预训练的模型,以匹配其他方法的实验设置。
定量结果:实验结果在图1和图2中进行了呈现。通过对比,AA-CLIP展示了其优越的性能,尤其是在数据有限的情况下,依然保持了高效的检测表现。
像素级别:在仅使用2-shot训练的情况下,AA-CLIP相比于其他方法在零-shot性能上有所提高。在全数据集上,AA-CLIP在像素级别设置了新的SOTA(AUROC = 93.4%)。
图像级别:在图像级别,AA-CLIP在仅使用2-shot的情况下也表现竞争力,并在64-shot时设立了新的SOTA(AUROC = 83.1%)。与以往方法相比,AA-CLIP在不依赖大量数据的情况下,能够实现顶级的表现。
不同数据量下的比较
在图5中展示了AA-CLIP在不同数据量下的表现。即使数据量有限,AA-CLIP也能够取得具有竞争力的结果,而其他方法则显示出了过拟合的迹象。随着数据量的增加,AA-CLIP依旧保持领先,分别在像素级和图像级建立了新的SOTA。
可视化结果
为了直观地展示模型的对齐效果,图6中展示了不同方法的可视化示例。尽管以往方法能够检测到异常区域,但AA-CLIP在工业和医学领域中表现出了更少的假阴性预测,能够准确标出正确的异常区域。
消融实验
在表3和图7中,进行了AA-CLIP的消融实验,验证了视觉和文本空间优化对模型性能的影响。
图像空间:在加入线性投影(VAND)后,模型的零-shot性能出现显著下降,表明原始CLIP的泛化能力受损。而通过加入残差适配器,性能得到了显著提升,并且保留了CLIP原有的泛化能力。
文本空间:在文本空间上,AA-CLIP能够提供更精确的语义基础,进一步提高了异常检测的能力,特别是在图像级别的改进上,加入Disentangle Loss进一步提升了性能。
两阶段训练策略的有效性
实验验证了两阶段训练策略的必要性。在一阶段训练中,模型容易夸大异常语义,丧失CLIP原有的类别信息。而两阶段训练则能有效地控制模型的适配过程,确保保持CLIP的分类知识的同时,能够适应异常检测任务的需要。




7. 总结 & 未来工作
据我们所知,这是首次明确分析CLIP中固有的异常无知问题。为了解决这一问题,我们提出了一种简单而有效的二阶段训练策略,将异常感知信息嵌入CLIP,从而实现了在已见类别和新颖类别之间清晰的异常表示解耦。通过利用残差适配器,我们的方法保持了CLIP强大的泛化能力,在多个数据集上实现了卓越的零样本性能。通过这一二阶段适配策略开发的AA-CLIP,揭示了改进CLIP特征空间以提高下游应用性能的潜力。
除了应对异常无知问题,我们的工作还为解决CLIP中的其他“无知”问题提供了潜在基础。这些问题可能包括上下文感知或针对领域相关细节的特异性限制,这为我们方法在扩展CLIP适应性方面在多样化任务中的应用提供了进一步的方向。此外,我们观察到在全样本训练中出现了过拟合的迹象,这表明CLIP适配过程中可能出现饱和现象,需要进一步研究。
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:
工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:四旋翼建模、无人机飞控等
2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群
添加小助理: cv3d001,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球(点开有惊喜),已沉淀6年,星球内资料包括:秘制视频课程近20门(包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等)、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。
卡尔曼滤波、大模型、扩散模型、具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。

— 完 —
点这里👇关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
3D视觉科技前沿进展日日相见 ~