(CVPR 2025)两阶段适配让CLIP“看懂异常”：AA-CLIP构建异常感知空间

本文链接：https://blog.csdn.net/m0_59235945/article/details/147231960

论文介绍

题目：AA-CLIP: Enhancing Zero-Shot Anomaly Detection via Anomaly-Aware CLIP

论文地址：https://arxiv.org/pdf/2503.06661

创新点

创新点 1：首次系统分析并解决 CLIP 的“***异常无感（Anomaly-Unawareness）*”问题**

作者发现原始 CLIP 在异常检测任务中存在关键缺陷：无法有效区分正常与异常语义。
这是由于 CLIP 主要在非异常数据上预训练，其文本特征中正常与异常描述高度重叠，导致异常检测效果差。

方法创新：提出 AA-CLIP（Anomaly-Aware CLIP）双阶段训练策略

创新点 2：两阶段训练框架（Two-Stage Adaptation Strategy）

阶段一：文本空间适配

在 CLIP 的文本编码器浅层加入 Residual Adapters
使用“正常”与“异常”描述生成 text anchor（语义锚点）
使用 Disentangle Loss 使正常与异常语义分离（正交）

阶段二：图像空间适配

在 CLIP 的图像编码器浅层加入 Residual Adapters
通过多尺度特征对 patch-level 图像表示对齐至 text anchors，实现更精细的异常定位

创新点 3：引入可控、轻量、层级感知的 Residual Adapter

插入在 CLIP 的 transformer 模块浅层，无需破坏原有参数，保持 CLIP 泛化能力
控制适配程度（参数 λ）以防过拟合，并平衡异常感知与原始分类能力

创新点 4：极少样本即可达到 SOTA

在仅使用 2-shot 正常+异常样本/类的情况下，AA-CLIP 依然在多个工业和医学数据集上超越现有方法
在 64-shot 训练下达到新 SOTA：像素级 AUROC 93.4%、图像级 AUROC 83.1%

摘要

异常检测（Anomaly Detection, AD）旨在识别图像中的异常区域，广泛应用于缺陷检测和病灶识别等任务。虽然 CLIP 模型在零样本异常检测任务中表现出良好的泛化能力，但其**“异常无感”**的本质限制了其在区分正常与异常特征方面的判别力。

为了解决这一问题，我们提出了AA-CLIP（Anomaly-Aware CLIP），该方法在保留 CLIP 原始泛化能力的同时，增强了其在文本空间与视觉空间中的异常判别能力。具体而言，AA-CLIP 采用一种简单却有效的两阶段训练策略：第一阶段中，我们构建了异常感知的文本锚点（text anchors），从而明确地区分正常与异常语义；第二阶段中，我们对图像的 patch-level 视觉特征进行适配，使其与上述文本锚点对齐，从而实现精确的异常定位。

整个过程借助**残差适配器（Residual Adapters）**实现可控的渐进式适配，在有效提升异常检测能力的同时保持 CLIP 的类知识不被破坏。

大量实验验证了 AA-CLIP 的有效性和资源效率。即便在数据有限的场景下，AA-CLIP 也能在工业和医学应用中取得领先的零样本异常检测性能，在多个数据集上实现了最新的 SOTA 结果。

整体结构

模型整体结构概览

AA-CLIP 由两个关键阶段构成：

阶段一：构建异常感知文本锚点（Text Anchors）

对 CLIP 的文本编码器（Text Encoder）浅层插入 Residual Adapters
目的是将“正常”和“异常”文本提示分开，学习出明确的normal anchor TN 与 anomaly anchor TA

阶段二：图像特征对齐至文本锚点

对 CLIP 的视觉编码器（Visual Encoder）浅层插入 Residual Adapters
利用多个尺度（layer 6/12/18/24）的 patch features 与 TN,TA 对齐，提升图像局部异常定位能力

关键流程与公式对应关系

模块一：Residual Adapter（用于浅层适配）

目的：注入少量新参数以增强 CLIP，而不破坏原有知识

第 i 层 transformer 输出特征为 xi∈RN×d
通过 Adapter 生成增强特征：

原始特征与增强特征融合：

模块二：异常文本锚点构建（Stage 1）

使用预设文本提示（如 “a photo of [class]” / “a photo of broken [class]”）生成文本特征锚点：

正常与异常文本特征均值作为 anchor：

对图像特征进行 分类和分割预测：

图像级分类预测：

Patch 级分割预测：

模块三：损失函数（Stage 1）

图像分类损失（交叉熵）：

分割损失（Dice + Focal）：

对齐损失总和：

模块四：Disentangle Loss（正交约束）

使得正常和异常文本锚点之间正交，增强可分性：

总损失（包含正则）：

模块五：图像特征多尺度对齐（Stage 2）

提取第 i∈{1,2,3,4} 层视觉编码器输出 Fi
经过投影头变换为 patch-level 特征：

汇总所有尺度：

最终使用与文本锚点的余弦相似度进行像素级预测

消融实验结果

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述