CV技术指南 | CVPR‘2025 | AA-CLIP:赋予CLIP模型对异常的感知能力

本文来源公众号“CV技术指南”,仅用于学术分享,侵权删,干货满满。

原文链接:CVPR'2025 | AA-CLIP:赋予CLIP模型对异常的感知能力

前言 

为解决CLIP的“异常无意识”问题,作者提出了Anomaly-Aware CLIP(AA-CLIP),通过增强CLIP在文本和视觉空间中的异常辨别能力,同时保留其泛化能力,从而提高零样本AD任务的性能。

  • 文章题目:AA-CLIP: Enhancing Zero-Shot Anomaly Detection via Anomaly-Aware CLIP

  • 原文链接:https://arxiv.org/pdf/2503.06661

  • codehttps://github.com/Mwxinnn/AA-CLIP

  • 年份:2025年CVPR

背景知识

  • 异常检测的重要性:异常检测(AD)在工业和医学领域有广泛应用,如检测工业产品的缺陷或医学图像中的病灶。传统AD方法在有足够特定类别标记数据时效果良好,但在现实场景中,收集全面的标记数据集往往不切实际,因此需要探索低样本学习和迁移学习方法。

  • CLIP模型的潜力与局限性:CLIP模型在各种零样本任务中表现出强大的泛化能力,但其在异常检测任务中存在局限性,主要体现在难以区分正常和异常特征,即“异常无意识”(Anomaly-Unawareness)问题。尽管CLIP的文本编码器能有效捕获对象级信息,但在可靠地区分正常和异常语义方面存在困难。

图片

图1展示了AA-CLIP的核心思想,分为三个部分:左边展示了CLIP在异常检测中的局限性,即类别级图像-文本对齐导致正常和异常语义的模糊区分以及补丁级特征与文本特征的不准确对齐;中间部分介绍了AA-CLIP的两阶段训练策略,第一阶段通过解耦文本语义创建清晰的正常和异常语义锚点,第二阶段将补丁级视觉特征与这些锚点对齐;右边展示了AA-CLIP的泛化能力,能够对已知和未见类别实现鲁棒的异常感知,从而在零样本推理中有效检测异常。

研究方法

  • 两阶段训练策略

    • 第一阶段(文本空间解耦):冻结视觉编码器,仅适配文本编码器,通过引入残差适配器,在文本空间中为每个训练类别创建“锚点”,将正常和异常文本特征解耦为不同的锚点,以清晰地区分正常和异常语义。同时,引入解耦损失函数,鼓励正常和异常嵌入之间的正交性,以最小化它们之间的相关性。

    • 第二阶段(视觉空间对齐):冻结文本编码器,仅适配视觉编码器,同样使用残差适配器,将补丁级视觉特征与文本空间中解耦后的锚点对齐,引导视觉编码器关注与异常相关的区域,从而实现精确的异常检测。

  • 残差适配器的应用:为了在保留CLIP预训练知识的同时进行针对性的适配,作者在文本和视觉编码器的浅层引入了轻量级的残差适配器。这种设计可以在不破坏原始CLIP结构的情况下,增强模型对异常的敏感性。

图片

图4展示了AA-CLIP的两阶段训练流程。第一阶段(顶部)通过在文本编码器的浅层引入残差适配器,解耦正常和异常语义,生成清晰的文本锚点(TN和TA),并通过解耦损失函数增强正常和异常嵌入的独立性。第二阶段(底部)通过在视觉编码器的浅层引入残差适配器,将补丁级视觉特征与第一阶段生成的文本锚点对齐,从而引导视觉编码器关注异常相关区域。整个流程通过冻结原始CLIP的参数并仅适配浅层,确保在增强异常感知能力的同时保留CLIP的泛化能力。

实验

  • 数据集:在11个广泛使用的基准数据集上评估模型,包括工业领域的MVTec AD、VisA、BTAD和MPDD,以及医学领域的脑部MRI、肝脏CT和视网膜OCT等数据集。

  • 评估指标:使用接收者操作特征曲线下面积(AUROC)作为评估指标,在图像和像素级别全面评估模型检测和定位异常的有效性。

  • 实验结果

    • 与最先进方法的比较:AA-CLIP在数据有限的情况下始终表现出顶级性能,在像素级别上,仅使用每类2个样本进行训练时,平均零样本性能优于之前的方法;在使用完整数据集训练时,像素级别的AUROC达到93.4%,图像级别的AUROC达到83.1%,均达到了新的最佳性能(SOTA)。

    • 不同数据规模下的表现:随着训练数据的增加,AA-CLIP始终保持领先地位,证明了其在不同数据规模下的稳定性和有效性。

    • 可视化结果:通过可视化异常定位结果,AA-CLIP在工业和医学领域都能更准确地突出正确的异常区域,减少了假阴性预测。

图片

图片

图片

结论

  • AA-CLIP通过两阶段训练策略有效地解决了CLIP在异常检测中的“异常无意识”问题,提高了模型在零样本AD任务中的性能,同时保留了CLIP的泛化能力。

  • 残差适配器的设计在增强模型对异常的敏感性方面起到了关键作用,使得AA-CLIP能够在不破坏原始CLIP结构的情况下进行有效的适配。

  • AA-CLIP在多个数据集上取得了优异的实验结果,证明了其在工业和医学领域的广泛应用潜力,并为CLIP在其他需要精细特征提取和语义理解的任务中的应用提供了新的思路。

THE END !

文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值