ICLR 2024 | 跨领域准确进行零样本异常检测,浙大等提出AnomalyCLIP

3883ca0aa5b221e1c13012fac01157b1.gif

©作者 | 机器之心编辑部

来源 | 机器之心

零样本异常检测(ZSAD)允许检测模型仅利用辅助数据进行训练,从而在没有任何目标数据集训练样本的情况下检测异常。这在因各种原因(如数据隐私问题)无法获取训练数据时非常关键。

然而,这项任务面临的挑战在于,模型需要能够跨不同领域泛化异常检测能力,尤其是前景对象、异常区域及背景特征(比如不同产品或器官上的缺陷或肿瘤)在不同应用中可能大相径庭。

为了改进 CLIP 模型,来自浙江大学、新加坡管理大学、哈佛大学的研究者联合提出 AnomalyCLIP,使其能在不同领域中更准确地进行零样本异常检测。AnomalyCLIP 的核心思想是学习一种与对象不相关的文本提示技术(object-agnostic learning),这种技术能够捕捉到图像中的一般性正常和异常特征,而不依赖于任何特定的前景对象,从而在多种语义的对象上实现泛化的异常识别。

在 17 个来自不同领域(如缺陷检测和医疗成像)的真实世界异常检测数据集上进行的大规模实验证明, AnomalyCLIP 在跨域且高度多样化类别语义的数据中实现了卓越的零样本异常检测和分割能力。

af7563b43f4d9815bb8172bee39f0531.png

论文题目:

AnomalyCLIP: Object-agnostic Prompt Learning for Zero-shot Anomaly Detection

论文链接:

https://arxiv.org/pdf/2310.18961.pdf

代码链接:

https://github.com/zqhang/AnomalyCLIP

3c12d6cdab03fe1918095d722ba5d1ed.png

背景

传统的异常检测方法通常需要在特定应用领域内有可用的训练样本来学习检测模型。然而,在某些情况下,这个假设可能并不成立,比如访问训练数据会违反数据隐私政策,或者目标领域内根本就没有可用的训练数据。

fb6192b858bc453fb24598a1195ed664.png

▲ 图1. 不同文本提示方法的结果对比

由于不同应用场景中异常的视觉外观、前景对象和背景特征存在很大差异,例如不同产品表面的缺陷、不同器官上的病变或肿瘤,或者是工业缺陷与医学图像中肿瘤 / 病变的对比,我们需要能够针对这些变化进行准确零样本异常检测(ZSAD)的检测模型,这要求模型具有强大的泛化能力。

最近,大型预训练的视觉 - 语言模型(VLMs)在包括异常检测在内的多种视觉任务上展示了出色的零样本识别能力。特别是,通过使用数以百万计的图像 - 文本对进行预训练,CLIP 在强化各种下游任务的泛化能力方面发挥了巨大作用。

然而,CLIP 这类 VLM 主要是为了学习前景对象的类别语义,而不是图像中的异常 / 正常模式,因此它们在理解视觉异常 / 正常性方面的泛化能力有限,导致在 ZSAD 性能方面表现不佳。

此外,当前使用的文本提示方法,如图 1d 和图 1e 所示,无论是手动定义的文本提示还是可学习的文本提示,往往会导致提示文本嵌入偏向于全局特征以实现有效的对象语义对齐,而忽略了通常表现在细节、局部特征中的异常。

e7a7995c866ab6220cdc430092561803.png

方法介绍

AnomalyCLIP 旨在通过学习对象不相关的文本提示来让 CLIP 实现不同领域中的准确 ZSAD,从而捕获图像中的通用正常性和异常性,如图 2 所示。AnomalyCLIP 首先为 “正常” 和 “异常” 这两个广泛的类别设计了一个简单而普遍有效的可学习的文本提示模板,然后通过使用辅助数据,结合图像级别和像素级别的损失函数来让提示嵌入学习图像中存在的通用正常和异常模式。

这样,AnomalyCLIP 可以专注于图像中的异常区域而非对象的语义,使其能够零样本的识别出与辅助数据中相似的异常模式。如图 1a 和图 1b 所示,尽管辅助数据和目标数据中前景对象的语义完全不同时,但是其异常模式保持相似,例如金属螺母和板材上的划痕、晶体管和 PCB 的错位、不同器官表面的肿瘤 / 病变等。

而 CLIP 的文本提示嵌入在不同领域间的泛化能力有限,如图 1c 所示。不同的是,AnomalyCLIP 学习到的对象不相关的文本提示嵌入能够有效地泛化,识别出跨领域图像中的异常,如图 1f 所示。AnomalyCLIP只需要微调一次,就能够泛化地捕捉不同对象、场景甚至跨领域的异常。其他的没有了。

f643ac2144e74bdda4e6b9e42f5603f6.png

▲ 图2. AnomalyCLIP 框架图

528c6e326ae2bf53066033c49d6cae8e.png

实验结果

该研究在 17 个公开可用的数据集上进行了大量实验,涵盖了各种工业检测场景和医学成像领域(包括摄影、内窥镜和放射学),以评估 AnomalyCLIP 的性能。

在工业检测方面,该研究考虑了 MVTec AD、VisA、MPDD、BTAD、SDD、DAGM 和 DTD-Synthetic 等数据集。

在医学成像方面,该研究考虑了皮肤癌检测数据集 ISIC、结肠息肉检测数据集 CVC-ClinicDB 和 CVC-ColonDB、Kvasir、Endo、甲状腺结节检测数据集 TN3k、脑瘤检测数据集 HeadCT、BrainMRI、Br35H 和 COVID-19 检测数据集 COVID-19。最先进的 baseline 包括 CLIP、CLIP-AC、WinCLIP、VAND 和 CoOp。论文附录提供了有关方法和数据预处理的更多细节。

9c7a1ee64bc74ca1ec6167e9efbd9fed.png

▲ 表1:工业领域零样本异常检测性能比较。最佳性能以红色突出显示,次佳性能以蓝色突出显示。†表示结果来自原始论文。(除了 MVTec AD 数据集以外,其他所有结果均由 MVTec AD fine-tuining 得到)

各种工业检测领域的零样本异常检测性能

表 1 展示了 AnomalyCLIP 与五种 baseline 在七个工业缺陷数据集上的零样本异常检测结果,这些数据集具有非常不同的前景对象、背景和 / 或异常类型。AnomalyCLIP 在这些数据集上取得了优越的零样本异常检测性能,大部分情况下明显优于其他五种方法。

CLIP 和 CLIP-AC 表现较差的原因在于 CLIP 的原始预训练侧重于对齐对象语义而非异常语义。WinCLIP 和 VAND 通过使用手动定义的文本提示获得了更好的结果。

另外,CoOp 采用了可学习的提示来学习全局异常语义。然而,这些提示专注于全局特征,忽略了细粒度的局部异常语义,导致它们在异常分割上表现不佳。为了将 CLIP 适应于零样本异常检测,AnomalyCLIP 学习了对象不相关的文本提示,通过全局和局部上下文优化,专注于学习通用的异常 / 正常模式,使得模型能够有效识别全局和局部的异常。得到的提示还可以推广到来自不同领域的不同数据集。

为了提供更直观的结果,该研究在图 3 中可视化了 AnomalyCLIP、VAND 和 WinCLIP 在不同数据集上的异常分割结果。与 VAND 和 WinCLIP 相比,AnomalyCLIP 可以对来自不同工业检测领域的缺陷进行更准确的异常分割。

5ee7cd1866c2edaff7dd89a88c2c3d75.png

▲ 图3. AnomalyCLIP 分割结果

fd460cb49d80439dfc412ada119a29b8.png

▲ 表2. 医疗领域零样本异常检测性能比较。最佳性能以红色突出显示,次佳性能以蓝色突出显示。请注意,医疗异常检测数据集往往不同时包含像素级和图像级标签,因此评估图像级和像素级医疗异常检测的数据集有所不同。

从缺陷数据集到多样化的医学领域数据集的泛化能力

为了评估模型的泛化能力,该研究进一步考察了 AnomalyCLIP 在 10 个不同器官、不同成像设备上的医学图像数据集上的零样本异常检测性能。表 2 展示了相关结果,其中包括 AnomalyCLIP、VAND 和 CoOp 等基于学习的方法,均使用 MVTec AD 数据进行 fine-tuining。

值得注意的是,像 AnomalyCLIP 和 VAND 这样的方法在各种医学图像数据集上取得了令人满意的零样本异常检测性能,即使它们是使用缺陷检测数据集进行调优的。在所有这些方法中,由于其通过对象不相关的提示学习带来的强大泛化能力,AnomalyCLIP 是表现最佳的。

正如图 3 所示,AnomalyCLIP 能够准确检测出不同医学图像中的各种异常类型,例如摄影图像中的皮肤癌区域,内窥镜图像中的结肠息肉,超声图像中的甲状腺结节以及 MRI 图像中的脑肿瘤,其在定位异常病变 / 肿瘤区域方面的性能明显优于另外两种方法 WinCLIP 和 VAND。这再次证明了 AnomalyCLIP 在医学成像领域高度多样化的对象语义数据集中具有领先的零样本异常检测性能。

更多阅读

cf07b2e6f544d247a4d6828a6c460cbd.png

2795fc52585b075f86f3a17832dd6e00.png

ee6c167b1de2580939dff4f9b9585e71.png

6b9cb3b1e678fca9c0cfc5aa0906e2f4.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

20a08ea78b43ed98270dfa717152df5a.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

c53c886e59943dafac7b9c456e7f5061.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值