论文阅读：Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection

会飞的鱼_blog

已于 2024-03-06 21:53:09 修改

阅读量1.2k

点赞数 14

分类专栏：论文阅读文章标签：论文阅读深度学习人工智能

于 2024-03-03 13:45:54 首次发布

本文链接：https://blog.csdn.net/weixin_43339544/article/details/136430633

版权

论文阅读专栏收录该内容

4 篇文章 0 订阅

订阅专栏

本文介绍了一种新的工业异常检测方法，利用预训练的VisionExpert模型生成异常分割图，结合ExpertPerception和Expert-DrivenVisual-LanguageExtraction模块进行细致描述。研究者构建了IDA指令数据集并在MVTecAD和VisA数据集上进行了实验，评估指标包括I-AUROC和P-AUROC，展示了零/少量样本下的性能提升。

摘要由CSDN通过智能技术生成

概述

动机：现有的工业异常检测(IAD)方法预测异常检测和定位的异常分数。然而，他们很难对异常区域（例如工业异常的颜色、形状和类别）执行多轮对话和详细描述。

多模态大模型的能力：在多模态视觉任务上有卓越的能力，比如image captioning，visual understanding，visual reasoning。

大模型局限：现有的一般LMM中不存在关于异常检测的知识，而训练特定的LMM进行异常检测需要大量的注释数据和大量的计算资源。

现有方法：

基于特征嵌入的方法：
- PaDiM
- SimpleNet
- Towards
基于重构的方法：
- LafitE
- DiffusionAD
  专注于为每个样本提供一个异常分数和异常分割图，导致手动选择的阈值的过度依赖，以呈现异常及其潜在位置。

[图片]

模型

模型结构

[图片]

在这里插入图片描述

Vision Expert：这个采用预训练的IAD模型，输入是工业图像，输出是异常分割图
Expert Perception：将异常分割度进行嵌入，输入是异常分割图，输出是embedding 序列
Expert-Driven Visual-Language Extraction：输入是原工业图像和异常分割图，输出是embedding 序列

Expert Perception

模块由Vision Expert Tokenizer (VE-Tokenizer)组成，目的是将异常分割图转换为LLM能理解的textual tokens

VE-Tokenizer包含多个块，由3x3内核的卷积，ReLUctant作为激活函数和最大池化组成，以便将输入异常图 $R^{HxW}$ 映射到vision expert embeddings $R^{D_{VE}xD_{LLM}}$ ， $D_{LLM}$ 是LLM的维度， $D_{VE}$ 是vision expert embeddings的数量，通常设置为9

Expert-Driven Visual-Language Extraction

模块由EVA-CLIP中冻结的ViT，可训练的Adapter，Vision Expert Instructor，和BLIP-2中的QFormer组成

ViT：将原始工业图像映射为视觉特征
Adapter：增强视觉表示，包含两个卷积层，进行残差连接。
Vision Expert Instructor：生成针对原始 Q-former query tokens的expert query tokens。
Q-former:expert query tokens和视觉特征在Q-former中的交叉注意力层交互

IDA 指令数据集

构建指令数据模板：“According to image and domain expert , find out if there are defects in this image.”

实验

数据集：MVTecAD和VisA

MVTecAD中，训练集包含3629样本，测试集中包含1725个样本，包含15个不同类型的子数据集，包括5个文本子数据集和10个对象子数据集
VisA中包含 9, 621 个正常样本和 1, 200 个异常样本，涵盖 12 个对象。
在训练过程中只有正常样本可见，所有异常样本用于测试

评估指标：采用I-AUROC和P-AUROC来衡量异常分割图中图像级异常检测和像素级异常定位的性能，为和之前的工作对比，还报告了子数据集的平均准确度。

结果

1-class Industrial Anomaly Detection：
[图片]

Zero shot/few shot：
[图片]

例子

在这里插入图片描述

消融实验

在这里插入图片描述

会飞的鱼_blog

关注

14
点赞
踩
27

收藏

觉得还不错? 一键收藏
0
评论
论文阅读：Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection

动机：现有的工业异常检测(IAD)方法预测异常检测和定位的异常分数。然而，他们很难对异常区域（例如工业异常的颜色、形状和类别）执行多轮对话和详细描述。多模态大模型的能力：在多模态视觉任务上有卓越的能力，比如image captioning，visual understanding，visual reasoning。大模型局限：现有的一般LMM中不存在关于异常检测的知识，而训练特定的LMM进行异常检测需要大量的注释数据和大量的计算资源。
复制链接

扫一扫

专栏目录