AnomalyGPT论文阅读

知识点补充:

细粒度图像分类:细粒度图像分类相对于粗粒度而言,就是对类别进行更加细致的子类划分。如图中所示,粗粒度就是单纯的区分鸟、狗、车等;细粒度则是在鸟的类别中进行更加细致的划分,如麻雀,燕子等。相对于粗粒度,细粒度往往更加困难。

GPT全称:Generative Pre-trained Transformer

AUC:一个正例,一个负例,预测为正的概率值比预测为负的概率值还要大的可能性。

大型视觉-语言模型(LVLM)

工业异常检测(IAD)

可学习的基础提示嵌入是指将文本数据转换为连续的低维向量表示。这种向量表示可以捕捉到单词之间的语义和上下文关系,从而提供更好的输入特征给卷积神经网络(CNN)。引用中提到的卷积神经网络是一种常用的深度学习网络框架,它可以对图像、文本等进行处理和分类。

文献精读笔记

阅读日期

2023.09.10

期刊信息

题目

AnomalyGPT:使用大型视觉语言模型进行工业异常检测

作者

Zhaopeng Gu

摘要

本文提出了一种基于大型视觉语言模型的工业异常检测方法AnomalyGPT。该方法通过模拟异常图像并生成相应的文本描述来生成训练数据,并使用图像解码器提供细粒度语义。AnomalyGPT消除了手动阈值调整的需要,直接评估异常的存在和位置。此外,AnomalyGPT支持多轮对话,并展现了令人印象深刻的少样本上下文学习能力。在MVTec-AD数据集上,AnomalyGPT实现了86.1%的准确率,94.1%的图像级AUC和95.3%的像素级AUC的最新性能。

研究背景

IAD任务旨在检测和定位异常。目前工业产品图像异常检测方法通常只提供测试样本的异常分数,并需要手动设置阈值来区分正常和异常实例,这在实际生产环境中不适用。

现存的IAD:仅能得出异常分数且需要手动设置阈值;

现存的LVLM:不能检测异常的存在位置;

研究目的

  1. 检测异常的存在和位置,无需手动设置阈值
  2. 提供图像信息和交互式参与,允许用户根据需要提出后续问题。
  3. 在少量正常样本的情况下进行上下文学习,快速适应以前未见过的对象。

研究方法

利用预训练的图像编码器和LLM通过模拟异常数据来对齐IAD图像和对应的文本描述。引入了解码器模块和提示学习模块,以提高IAD性能并实现像素级定位输出。使用提示调整和与预训练数据的交替训练可以保持LLM的可转移性并防止灾难性遗忘。

AnomalyGPT模型架构包括图像编码器、线性层、局部线性模型、解码器、记忆库和提示学习器。在无监督学习中,模型使用中间层的补丁级特征和文本特征生成像素级异常定位结果。在少样本学习中,正常样本的补丁级特征存储在记忆库中,查询补丁与记忆库中最相似的补丁进行比较,从而得到异常定位结果。LLM利用图像输入、提示嵌入和用户提供的文本输入来检测异常并确定其位置,为用户生成响应。

结果

  1. 首次将LVLM应用于工业异常检测领域,实现了自动检测和定位异常,并支持多轮对话。
  2. 通过轻量级的视觉-文本特征匹配解码器,解决了LLM在细粒度语义辨别上的局限性,并减轻了LLM仅能生成文本输出的限制。
  3. 使用提示嵌入进行微调,并与LVLM预训练数据同时训练,从而保留了LVLM的固有能力,并实现了多轮对话。
  4. 本方法具有强大的迁移能力,在新数据集上能够进行上下文少样本学习,并取得了出色的性能

结论

AnomalyGPT是一种新型的对话式图像异常检测模型,利用了LVLM的强大能力。它可以确定图像是否包含异常,并指出其位置,无需手动指定阈值。此外,AnomalyGPT还能够进行多轮对话,展现出在少量数据下的上下文学习能力。该模型在两个常见数据集上的有效性得到验证,为工业异常检测领域提供了新的思路和可能性。

亮点

  1. 可小样本学习
  2. 有语言描述
  3. 可迁移范围广

不足

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值