Multimodal Industrial Anomaly Detection by Crossmodal Reverse Distillation

目录

1.Introduction

2.Related Work

3.Preliminaries

4.Crossmodal Reverse Distillation

4.1.Multi-branch Distillation

4.2.Crossmodal Assistants

4.3.Training Objectives

4.4.Anomaly Scoring

5. Experiments

5.1. Experimental Settings

5.2. Results on MVTec-3D AD

5.3.Ablation Studies

6. Conclusion

笔记作者:
乔幸荣,女,西安工程大学电子信息学院,2024级研究生,张宏伟人工智能课题组
研究方向:模式识别与智能系统
电子邮件:2029518801@qq.com

这篇文章针对现有的基于知识蒸馏的多模态异常检测方法可能无法有效捕获某一模态中的异常,从而导致检测失败以及不能充分利用丰富的内部和跨模式信息,提出了基于多分支蒸馏的跨模态反蒸馏方法。

原文链接:https://arxiv.org/pdf/2412.08949v1

代码链接:https://github.com/hito2448/CRD

1.Introduction

目前,基于特征学习的方法分为两类,如图1所示:(1)AST和MMRD(图1 (a))等方法遵循知识蒸馏,学生网络在正常样本上从教师网络学习多模态特征表示能力。然而,这些方法可能会在融合过程中平滑异常特征,降低教师对异常的敏感性,导致假阴性,特别是当一个模态是正常的,而另一个模态是异常的。(2)跨模态特征映射(图1 (b))引入了一种新的范式,通过跨模态映射特征来捕捉跨模态关系,实现了多模态AD。但不可避免的是,多模态特征之间的不对齐会导致拟合不足,并导致输出异常图中的误报。

为了解决以前基于kd的方法中的异常平滑问题,我们的直觉是将单分支蒸馏扩展为多分支蒸馏。每个模态都有自己的蒸馏目标,确保对每个模态内异常的敏感性。此外,为了解决跨模态特征映射的欠拟合问题,我们建议不直接使用跨模态映射的特征相似度来生成异常图。相反,我们将跨模态映射的思想集成到多分支蒸馏中,其中来自另一模态的教师网络的特征,以及多模态关系,有助于为给定模态的学生网络生成特征。

我们的贡献如下:

•我们提出了基于多分支蒸馏的跨模态反蒸馏,用于多模态工业异常检测,可以有效地检测所有模态的异常。

•引入了两个跨模态助手,包括帮助学生解码器生成正常特征的跨模态滤波器和放大来自其他模态的异常感知的跨模态放大器。

•实验结果表明,我们提出的CRD在多模态工业AD数据集上实现了最先进的性能。

2.Related Work

无监督异常检测  近年来,无监督广告越来越受到人们的关注。最初,许多无监督AD方法依赖于生成模型。这些模型在正常样本上进行训练,以学习重建正常数据的能力。在推理过程中,利用重构误差对输入图像进行正常或异常分类。其他方法引入记忆库,将测试样本与存储的正常特征进行比较,以检测异常。最近,合成异常图像的研究取得了重大进展,该图像模拟真实场景以辅助无监督AD任务。此外,基于师生框架的知识蒸馏方法也被应用于无监督AD。这些方法训练学生网络学习教师网络在正常样本上的特征表示,然后利用教师网络和学生网络在异常像素上的特征表示的差异来定位异常。由于KD方法直观、简单的特点,基于KD的AD方法已成为无监督异常检测领域的一个重要研究热点。

多模态异常检测  随着多个三维工业异常检测数据集的发布,无监督多模态AD逐渐成为一个研究课题。一些方法,如BTF和M3DM,通过利用3D AD的内存库来遵循PatchCore,将3D功能的存储添加到原始的PatchCore方法中。其他方法依靠重建网络来检测基于多模态数据重建结果的异常。在3D-ST、AST和MMRD等方法中也探索了知识蒸馏范式,目的是让学生网络模拟教师网络输出的多模态特征。跨模态特征映射提出了一种新的多模态解决方案,使用两个轻量级神经网络进行跨模态特征映射,并根据映射结果定位异常。

3.Preliminaries

知识蒸馏(Knowledge distillation, KD)是一种被广泛认可和研究的无监督工业图像数据分析范式,通常基于师生网络框架。教师网络通常是一个预训练模型,而学生网络是一个与教师网络相同或相似的可训练网络。在训练过程中,只使用正态样本,将教师网络表征正态特征的能力转移到学生网络中。这个过程通常使用余弦相似度来实现。设FT表示教师网络的特征输出,FS表示学生网络的特征输出。优化损失一般表示为

Sim(f_1,f_2)=\frac{​{f_1{}}^{T}f_2}{\left \| f_1 \right \|\left \| f_2 \right \|}​          (1)

L=\sum_{i=1}^{l}\left \{1-Sim(F_{T}^{i},F_{S}^{i}) \right \}​          (2)

其中l​表示选择的特征层数,一般设为3。在推理过程中,使用师生特征之间的多层余弦距离,M=\sum \left ( 1-Sim(F_{T},F_{S}) \right )​作为异常图,S = max(M)作为样本的异常分数。当输入为正态样本时,学生的特征与教师相似,因此M和S的值都很低。当输入为异常样本时,由于学生没有学习到教师的异常特征表示能力,因此异常区域的特征距离M较大,可以同时检测到异常的存在和位置。

逆蒸馏(RD)是一种先进的基于kd的AD方法。与传统的前向蒸馏不同,RD使用编码器-解码器架构。教师网络是一个预训练的编码器,

### Myriad 大型多模态模型在工业异常检测中的应用 Myriad 是一种新型的大型多模态模型,专门针对工业异常检测问题进行了优化设计。该模型的核心理念在于通过引入“视觉专家”来增强其对异常特征的学习能力,并将其与强大的多模态主干网络相结合[^3]。 #### 模型结构与功能 Myriad 的架构具有高度模块化的特性,允许灵活地集成不同的视觉专家组件。这些视觉专家能够识别并突出图像中的关键区域,从而帮助模型更好地捕捉异常特征。具体而言,Myriad 将来自不同领域(如纹理分析、形状匹配等)的专业知识融入到统一框架中,使得它不仅具备传统工业异常检测方法的优势,还继承了大规模多模态模型的强大泛化能力和指令遵循能力[^1]。 #### 数据效率与灵活性 相比于传统的单一任务模型或通用的大规模语言/视觉模型,Myriad 展现出更高的数据效率和更好的适应性。这主要得益于以下几个方面: - **专业知识融合**:通过对已有工业异常检测技术的有效利用,减少了对额外标注数据的需求。 - **模块化扩展**:由于采用了可插拔的设计思路,因此可以根据实际应用场景轻松调整配置而不必完全重训整个系统[^4]。 #### 实验验证与表现 为了评估 Myriad 的有效性,在多个公开可用的数据集上开展了广泛测试,包括但不限于 MVTec AD、VisA 和 PCB Bank 基准测试集合。结果显示,在单样本学习以及少量样例支持的情况下,相比其他先进方案均取得了显著改进的效果指标得分[^2]。 ```python # 示例代码展示如何加载预训练好的 Myriad 模型用于新项目开发阶段快速原型构建过程的一部分逻辑片段 from myriad import load_pretrained_model, detect_anomalies model = load_pretrained_model('myriad_vision_expert') test_images = ['path/to/image1.png', 'path/to/image2.jpg'] results = detect_anomalies(model=model, images=test_images) for result in results: print(f"Image {result['image']} has anomaly score of {result['score']}") ``` 上述脚本演示了一个简单的例子说明怎样调用预先训练完成后的 Myriad 来执行基本的任务操作流程——即给定一批待测图片文件路径列表之后返回每张图对应的异常评分数值结果。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值