AnomalyGPT论文阅读

最新推荐文章于 2025-03-13 09:30:00 发布

会魔法的小鸡翅

最新推荐文章于 2025-03-13 09:30:00 发布

阅读量893

点赞数

文章标签：论文阅读

本文链接：https://blog.csdn.net/m0_65497777/article/details/132794761

版权

知识点补充：

细粒度图像分类：细粒度图像分类相对于粗粒度而言，就是对类别进行更加细致的子类划分。如图中所示，粗粒度就是单纯的区分鸟、狗、车等；细粒度则是在鸟的类别中进行更加细致的划分，如麻雀，燕子等。相对于粗粒度，细粒度往往更加困难。

GPT全称：Generative Pre-trained Transformer

AUC:一个正例，一个负例，预测为正的概率值比预测为负的概率值还要大的可能性。

大型视觉-语言模型(LVLM)

工业异常检测(IAD)

可学习的基础提示嵌入是指将文本数据转换为连续的低维向量表示。这种向量表示可以捕捉到单词之间的语义和上下文关系，从而提供更好的输入特征给卷积神经网络(CNN)。引用中提到的卷积神经网络是一种常用的深度学习网络框架，它可以对图像、文本等进行处理和分类。

文献精读笔记
阅读日期	2023.09.10	期刊信息
题目	AnomalyGPT：使用大型视觉语言模型进行工业异常检测
作者	Zhaopeng Gu
摘要	本文提出了一种基于大型视觉语言模型的工业异常检测方法AnomalyGPT。该方法通过模拟异常图像并生成相应的文本描述来生成训练数据，并使用图像解码器提供细粒度语义。AnomalyGPT消除了手动阈值调整的需要，直接评估异常的存在和位置。此外，AnomalyGPT支持多轮对话，并展现了令人印象深刻的少样本上下文学习能力。在MVTec-AD数据集上，AnomalyGPT实现了86.1％的准确率，94.1％的图像级AUC和95.3％的像素级AUC的最新性能。
研究背景	IAD任务旨在检测和定位异常。目前工业产品图像异常检测方法通常只提供测试样本的异常分数，并需要手动设置阈值来区分正常和异常实例，这在实际生产环境中不适用。现存的IAD：仅能得出异常分数且需要手动设置阈值；现存的LVLM：不能检测异常的存在位置；
研究目的	检测异常的存在和位置，无需手动设置阈值提供图像信息和交互式参与，允许用户根据需要提出后续问题。在少量正常样本的情况下进行上下文学习，快速适应以前未见过的对象。
研究方法	利用预训练的图像编码器和LLM通过模拟异常数据来对齐IAD图像和对应的文本描述。引入了解码器模块和提示学习模块，以提高IAD性能并实现像素级定位输出。使用提示调整和与预训练数据的交替训练可以保持LLM的可转移性并防止灾难性遗忘。 AnomalyGPT模型架构包括图像编码器、线性层、局部线性模型、解码器、记忆库和提示学习器。在无监督学习中，模型使用中间层的补丁级特征和文本特征生成像素级异常定位结果。在少样本学习中，正常样本的补丁级特征存储在记忆库中，查询补丁与记忆库中最相似的补丁进行比较，从而得到异常定位结果。LLM利用图像输入、提示嵌入和用户提供的文本输入来检测异常并确定其位置，为用户生成响应。
结果	首次将LVLM应用于工业异常检测领域，实现了自动检测和定位异常，并支持多轮对话。通过轻量级的视觉-文本特征匹配解码器，解决了LLM在细粒度语义辨别上的局限性，并减轻了LLM仅能生成文本输出的限制。使用提示嵌入进行微调，并与LVLM预训练数据同时训练，从而保留了LVLM的固有能力，并实现了多轮对话。本方法具有强大的迁移能力，在新数据集上能够进行上下文少样本学习，并取得了出色的性能
结论	AnomalyGPT是一种新型的对话式图像异常检测模型，利用了LVLM的强大能力。它可以确定图像是否包含异常，并指出其位置，无需手动指定阈值。此外，AnomalyGPT还能够进行多轮对话，展现出在少量数据下的上下文学习能力。该模型在两个常见数据集上的有效性得到验证，为工业异常检测领域提供了新的思路和可能性。
亮点	可小样本学习有语言描述可迁移范围广		不足