论文阅读:Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection

本文介绍了一种新的工业异常检测方法,利用预训练的VisionExpert模型生成异常分割图,结合ExpertPerception和Expert-DrivenVisual-LanguageExtraction模块进行细致描述。研究者构建了IDA指令数据集并在MVTecAD和VisA数据集上进行了实验,评估指标包括I-AUROC和P-AUROC,展示了零/少量样本下的性能提升。
摘要由CSDN通过智能技术生成

概述

动机:现有的工业异常检测(IAD)方法预测异常检测和定位的异常分数。然而,他们很难对异常区域(例如工业异常的颜色、形状和类别)执行多轮对话和详细描述。

多模态大模型的能力:在多模态视觉任务上有卓越的能力,比如image captioning,visual understanding,visual reasoning。

大模型局限:现有的一般LMM中不存在关于异常检测的知识,而训练特定的LMM进行异常检测需要大量的注释数据和大量的计算资源。

现有方法:

  • 基于特征嵌入的方法:
    • PaDiM
    • SimpleNet
    • Towards
  • 基于重构的方法:
    • LafitE
    • DiffusionAD
      专注于为每个样本提供一个异常分数和异常分割图,导致手动选择的阈值的过度依赖,以呈现异常及其潜在位置。

[图片]

模型

模型结构

[图片]

在这里插入图片描述

  • Vision Expert:这个采用预训练的IAD模型,输入是工业图像,输出是异常分割图
  • Expert Perception:将异常分割度进行嵌入,输入是异常分割图,输出是embedding 序列
  • Expert-Driven Visual-Language Extraction:输入是原工业图像和异常分割图,输出是embedding 序列

Expert Perception

模块由Vision Expert Tokenizer (VE-Tokenizer)组成,目的是将异常分割图转换为LLM能理解的textual tokens

VE-Tokenizer包含多个块,由3x3内核的卷积,ReLUctant作为激活函数和最大池化组成,以便将输入异常图 R H x W R^{HxW} RHxW映射到vision expert embeddings R D V E x D L L M R^{D_{VE}xD_{LLM}} RDVExDLLM D L L M D_{LLM} DLLM是LLM的维度, D V E D_{VE} DVE是vision expert embeddings的数量,通常设置为9

Expert-Driven Visual-Language Extraction

模块由EVA-CLIP中冻结的ViT,可训练的Adapter,Vision Expert Instructor,和BLIP-2中的QFormer组成

  • ViT:将原始工业图像映射为视觉特征
  • Adapter:增强视觉表示,包含两个卷积层,进行残差连接。
  • Vision Expert Instructor:生成针对原始 Q-former query tokens的expert query tokens。
  • Q-former:expert query tokens和视觉特征在Q-former中的交叉注意力层交互

IDA 指令数据集

构建指令数据模板:“According to image and domain expert , find out if there are defects in this image.”

实验

数据集:MVTecAD和VisA

  • MVTecAD中,训练集包含3629样本,测试集中包含1725个样本,包含15个不同类型的子数据集,包括5个文本子数据集和10个对象子数据集
  • VisA中包含 9, 621 个正常样本和 1, 200 个异常样本,涵盖 12 个对象。
    在训练过程中只有正常样本可见,所有异常样本用于测试

评估指标:采用I-AUROC和P-AUROC来衡量异常分割图中图像级异常检测和像素级异常定位的性能,为和之前的工作对比,还报告了子数据集的平均准确度。

结果

1-class Industrial Anomaly Detection:
[图片]

Zero shot/few shot:
[图片]

例子

在这里插入图片描述

在这里插入图片描述

消融实验

在这里插入图片描述

  • 14
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值