论文研读——《Myriad:应用视觉专家进行工业异常检测的大型多模态模型》

        本文提出了一个新颖的大型多模态模型系统 Myriad,专为工业异常检测任务设计,通过引入预训练工业异常检测模型生成的异常图(anomaly map)作为视觉专家引导信号,利用视觉提示生成器(VPG)和文本提示生成器(TPG)分别增强视觉编码器和语言模型,从而实现对图像中异常区域的更精准关注与语义理解,有效提升了多模态模型在工业检测中的泛化能力和任务适应性。

目录

论文标题

核心问题:

创新方法:

论文讲解:

局限分析:

问题与解答:

Myriad 系统架构详解(依据论文 Section 3)

1. VE-Guided Visual Feature Extractor(视觉专家引导的视觉特征提取器)

2. Instruction-Based Multimodal Interaction(基于指令的多模态交互)

3. Multimodal Large Language Model(多模态大语言模型)

图示结构(对应论文 Figure 2)

输入:工业图像

① 视觉专家(Vision Expert, VE)

② VE-Guided Vision Encoder(视觉专家引导的视觉编码器)

③ VPG(Visual Prompt Generator)

④ TPG(Textual Prompt Generator)

⑤ 大型语言模型(LLM,如 Vicuna)

模块之间的依赖关系总结:

名词解释

【1】AnomalyGPT

【2】ImageBind

【3】PatchCore

总结

【4】LLaMA

【5】模态鸿沟


论文标题

Myriad:应用视觉专家进行工业异常检测的大型多模态模型

Myriad: A Large Multimodal Model Applying Vision Experts for Industrial Anomaly Detection


核心问题

        传统的工业异常检测(Industrial Anomaly Detection, IAD)方法通常需要为每一个应用场景单独训练模型(嫌麻烦了说是),难以适应现代制造中多样化和快速变化的需求。这种方法的泛化能力弱、可扩展性差,限制了其在工业实际中的部署效率和灵活性。


创新方法

        论文提出了一种名为 Myriad 的大规模多模态模型,通过引入已有的视觉专家(例如AnomalyGPT【1】、 ImageBind【2】、PatchCore【3】、MiniGPT-4)引导大模型关注图像中异常区域,从而实现高效的工业异常检测。该方法包括以下关键技术点:

  • 视觉专家引导机制:利用已有 IAD 方法生成的异常图作为提示,辅助多模态模型关注关键区域。

  • VE-guided 视觉特征提取器:结合视觉专家输出与原始图像,通过 adapter 模块调节视觉特征以适应异常检测任务。

  • 语言模型驱动的输出生成:将人类指令、图像特征及异常图融合输入语言模型,输出检测结果和描述信息。

        该方法依赖预训练大语言模型(LLaMA【4】, Vicuna【5】)和图像模型,并在其基础上构建多模态系统。


论文讲解

        文章从工业异常检测的重要性和现有方法的局限出发,逐步引出LMMs(Large Multimodal Models)在IAD中的潜力。论文整体结构如下:

  1. 引言部分明确指出传统IAD方法对部署环境的适应性差,而LMMs凭借理解和指令跟随能力,具备良好的泛化前景。

  2. 核心挑战在于当前LMM虽然具备关于异常检测的文本知识,但难以直接从图像中激活这些知识,即“模态鸿沟【6】”问题。

  3. 方法部分提出Myriad系统架构。其创新在于引入已有IAD模型作为“视觉专家”,生成异常图用于提示LMM聚焦图像中的异常区域。该过程通过:

    • VE-guided Vision Encoder提取多模态输入;

    • adapter模块调节视觉特征以适配语言模型;

    • 多模态融合后由语言模型进行推理和输出。

  4. 实验部分在MVTec-AD、VisA、PCB Bank等数据集上对比SOTA方法,验证其在单类和小样本设定下的优越性能。

  5. 灵活性讨论强调该框架无需结构改动即可适应zero-shot、few-shot等多种训练/推理模式,表现出较强的通用性和扩展性。


局限分析

  • 计算成本:由于依赖大规模语言模型与视觉编码器,同时还需引入视觉专家,整体模型计算和推理成本较高,不适合对实时性要求极高的工业场景。

  • 数据依赖性:虽然支持few-shot甚至zero-shot场景,但预训练模型本身仍需要大量训练数据支撑,且对视觉专家性能有所依赖。

  • 模态耦合复杂性:融合视觉专家输出和图像特征,再传入语言模型的过程需要精密设计,系统耦合度较高,不利于轻量化部署。

  • 泛化能力仍有限于训练分布:虽然较传统模型更强,但若视觉专家对某类异常识别能力不足,则仍可能影响整体性能。


问题与解答

Why型:为什么该方法比传统方案更优?
        Myriad通过引入视觉专家提供的异常图,解决了LMM对图像中异常区域缺乏关注的问题,显著提升了模型在复杂场景下的感知与推理能力。同时,它兼具大模型的语言理解与指令跟随能力,能适应更多任务形式和输入变化,相比传统“一模型一任务”的方式更具通用性和灵活性。

How型:如何将该方法扩展到其他场景?
        该方法可迁移到如医学图像异常检测、交通设施损坏识别等领域。只需更换相应领域的视觉专家模型(如医学图像分割器或道路检测模型),并利用相应预训练语言模型(如医学大模型)配合指令模板,即可快速适配不同任务场景,保持框架不变。


Myriad 系统架构详解(依据论文 Section 3)

        Myriad 旨在让大语言模型(LLM)能够理解异常图像并完成检测与定位任务。它的架构由以下三个核心组件组成:


1. VE-Guided Visual Feature Extractor(视觉专家引导的视觉特征提取器)

        该模块用于从图像中提取有意义的视觉特征,同时将视觉专家(VE)生成的异常图整合进去。详细结构如下:

  • 输入包括:

    • 原始图像 x

    • 对应的异常图 m,由视觉专家生成

  • 结构步骤:

    • 原始图像 x 和异常图 m 被拼接(concatenate)成一个四通道图像 [x; m]

    • 拼接后的图像被输入到 预训练的视觉编码器(如 SAM Image Encoder)中。

    • 输出的视觉特征为 F ∈ ℝ^{H×W×D}

  • 接着,将 F 输入到一个称为 Adapter 模块 的小型网络中(一个两层 MLP),得到最终的视觉特征 F'

    • F' = Adapter(F)

  • 最终的视觉 token 会被格式化为一组 patch token,并输入至多模态融合模块中。


2. Instruction-Based Multimodal Interaction(基于指令的多模态交互)

        此模块的任务是整合语言指令、图像内容和异常图,从而激活语言模型的推理能力。其结构包含以下要素:

  • 输入组成:

    • 自然语言形式的用户指令(prompt)

    • 异常图 m

    • 图像 patch token F'

  • 处理流程:

    • 使用 Q-Former 作为多模态交互中枢。它接收 Adapter 输出的视觉 token,并将其映射为若干个视觉 token(如 32 个)。

    • 这些视觉 token 再通过一层 Linear Projection 映射为与语言模型输入兼容的嵌入向量。

    • 与用户指令的文本 token 一起拼接,形成完整的多模态输入序列。


3. Multimodal Large Language Model(多模态大语言模型)

这是整个系统的语言推理核心,用于处理融合后的多模态输入并生成异常检测的自然语言输出。

  • 模型类型:使用了 Vicuna-7B 或者 LLaMA-2-7B 等开源 LLM。

  • 输入:包括文本指令 + 映射后的视觉 token。

  • 输出:异常检测结果,例如:

    • 是否存在异常;

    • 异常部位(文字描述);

    • 整体检测结论。


图示结构(对应论文 Figure 2)

输入:工业图像

  • 输入为工业场景下的一张图像,通常用于异常检测。


① 视觉专家(Vision Expert, VE)

  • 功能:对输入图像进行分析,估计一个异常图(Anomaly Map)M

  • 意图:为系统提供 先验知识(prior knowledge),标示图像中的潜在异常区域。


② VE-Guided Vision Encoder(视觉专家引导的视觉编码器)

  • 输入:原始图像 + 异常图(M)

  • 功能:

    • 将原始图像和异常图进行拼接([x ; M]),输入编码器。

    • 输出更符合 IAD(工业异常检测)语义的视觉特征(更专注于异常区域)。

  • 模块构成:

    • 采用 EVA-CLIP 的 ViT 主干(用于图像编码)

    • 后接 Q-Former(用于多模态 token 对齐)

    • 特别引入 Expert Prompts(由 VPG 生成,作为“指导提示”)


③ VPG(Visual Prompt Generator)

  • 功能:根据异常图 M 生成 视觉提示(expert prompts)

  • 用途:输入给视觉编码器,用于强调视觉特征中的异常区域。


④ TPG(Textual Prompt Generator)

  • 功能:将异常图 M 编码成 语言模型可理解的 VE tokens

  • 目的:提升大型语言模型(LLM)利用视觉异常信息的能力。

  • 输出:VE tokens,最终送入 LLM 作为额外上下文。


⑤ 大型语言模型(LLM,如 Vicuna)

  • 输入:Q-Former 处理后的视觉 tokens + TPG 提供的 VE tokens

  • 功能:根据提示、视觉信息和异常区域理解,输出异常检测相关文本结果(如是否异常、异常原因、位置等)

模块之间的依赖关系总结:

模块输入处理过程输出
VE-Guided Visual Encoder原始图像 + 异常图Vision Encoder + Adapter视觉 token
Q-Former视觉 token多模态 token 转换LLM-compatible embeddings
LLMtoken + 用户指令自然语言生成检测结果描述

名词解释

【1】AnomalyGPT

        AnomalyGPT 是一种基于大型视觉-语言模型(LVLMs)的工业异常检测方法。它旨在解决传统工业异常检测(IAD)方法的局限性,即需要手动设置阈值来区分正常和异常样本。AnomalyGPT 利用了预训练的图像编码器和大型语言模型(LLM),通过模拟异常数据进行微调,从而将IAD知识整合到模型中。该模型不仅能够指示异常的存在和位置,而且无需手动调整阈值,支持交互式查询,并且能够在提供很少正常样本的情况下快速适应新对象。AnomalyGPT 在 MVTec-AD 数据集上取得了显著的成绩,显示了其在无监督学习环境下的强大性能。

【2】ImageBind

        ImageBind 是由 Meta AI 提出的一个多模态学习模型,它能够在不需要显式配对数据的情况下,将图像、文本、音频、深度信息、温度信息、惯性数据(IMU)六种不同模态的数据绑定在一个共享的表示空间中。这个模型利用了大规模网络数据(如图像和文本匹配数据)以及自然存在的配对数据(如视频和音频)。ImageBind 的目标是创建一个统一的嵌入空间,使得不同模态的信息可以在其中相互关联和转换。这为跨模态检索、语义组合以及生成任务提供了可能性,例如通过声音生成图像或通过文本描述生成相应的音频内容。

【3】PatchCore

        PatchCore 是一种基于图像块(patch-based)的无监督异常检测模型,特别适用于工业场景中的外观缺陷检测。它通过使用预训练的深度神经网络提取多尺度特征,并利用内存库(memory bank)存储正常样本的特征分布,以实现对细微缺陷的高精度检测。PatchCore 的核心优势在于其仅需正常样本即可训练,减少了标注成本;同时,它具有高像素级检测能力,能够捕捉到非常微小的缺陷。此外,PatchCore 还引入了一系列优化策略,如特征金字塔融合、内存库优化策略和高效的推理优化,使其在复杂工业应用场景中表现出色。

总结

  • AnomalyGPT 专注于工业异常检测领域,利用了最新的视觉-语言模型技术,解决了传统方法需要手动设置阈值的问题,并且可以处理少量正常样本的情况。
  • ImageBind 是一个多模态模型,旨在将多种不同类型的数据(包括但不限于图像、文本、音频等)映射到一个共同的空间中,以便于跨模态理解和应用。
  • PatchCore 是一种专门针对工业缺陷检测设计的无监督模型,通过高效地利用正常样本的特征,在像素级别上实现了精确的异常检测。

【4】LLaMA

        LLaMA(Large Language Model Meta AI)是由Meta AI(原Facebook AI研究实验室)开发的一个系列的预训练大型语言模型。LLaMA模型以其卓越的性能和开源特性,在人工智能社区中引起了广泛关注,并被广泛应用于各种自然语言处理任务中。

LLaMA的关键特点:

  1. 开源性:LLaMA是一个开源项目。

  2. 多规模版本:LLaMA提供了多种规模的版本,包括70亿参数、130亿参数、700亿参数等不同大小的模型。

  3. 训练数据:LLaMA使用了公开的数据集进行训练,整个训练数据集在token化之后大约包含1.4T的token,并且随着版本迭代,训练数据规模不断增加。

  4. 技术架构:LLaMA模型采用了Transformer架构,并引入了如前置层归一化(Pre-normalization)、RMSNorm归一化函数、SwiGLU激活函数以及旋转位置嵌入(RoPE)等。

  5. 性能表现:LLaMA在多个基准测试上表现出色,例如具有130亿参数的LLaMA模型在大多数基准上可以胜过GPT-3(参数量达1750亿。


【5】模态鸿沟

        模态鸿沟(Modality Gap)是指在跨模态任务中,不同模态的数据表示之间的差异或不一致性。也就是在多模态学习和应用的背景下,模态鸿沟指的是不同信息来源(如文本、图像、语音等)之间存在的语义差距或特征空间上的不一致。这种差距可能会导致模型难以有效地整合来自不同模态的信息,从而影响最终的任务性能。

        在Referring Image Segmentation (RIS) 中,即根据描述性语言来分割图像中的特定对象时,同样面临着像素和词水平上的语言-图像模态鸿沟问题。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

WenJGo

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值