知识点补充:
细粒度图像分类:细粒度图像分类相对于粗粒度而言,就是对类别进行更加细致的子类划分。如图中所示,粗粒度就是单纯的区分鸟、狗、车等;细粒度则是在鸟的类别中进行更加细致的划分,如麻雀,燕子等。相对于粗粒度,细粒度往往更加困难。
GPT全称:Generative Pre-trained Transformer
AUC:一个正例,一个负例,预测为正的概率值比预测为负的概率值还要大的可能性。
大型视觉-语言模型(LVLM)
工业异常检测(IAD)
可学习的基础提示嵌入是指将文本数据转换为连续的低维向量表示。这种向量表示可以捕捉到单词之间的语义和上下文关系,从而提供更好的输入特征给卷积神经网络(CNN)。引用中提到的卷积神经网络是一种常用的深度学习网络框架,它可以对图像、文本等进行处理和分类。
文献精读笔记 | ||||
阅读日期 | 2023.09.10 | 期刊信息 | ||
题目 | AnomalyGPT:使用大型视觉语言模型进行工业异常检测 | |||
作者 | Zhaopeng Gu | |||
摘要 | 本文提出了一种基于大型视觉语言模型的工业异常检测方法AnomalyGPT。该方法通过模拟异常图像并生成相应的文本描述来生成训练数据,并使用图像解码器提供细粒度语义。AnomalyGPT消除了手动阈值调整的需要,直接评估异常的存在和位置。此外,AnomalyGPT支持多轮对话,并展现了令人印象深刻的少样本上下文学习能力。在MVTec-AD数据集上,AnomalyGPT实现了86.1%的准确率,94.1%的图像级AUC和95.3%的像素级AUC的最新性能。 | |||
研究背景 | IAD任务旨在检测和定位异常。目前工业产品图像异常检测方法通常只提供测试样本的异常分数,并需要手动设置阈值来区分正常和异常实例,这在实际生产环境中不适用。 现存的IAD:仅能得出异常分数且需要手动设置阈值; 现存的LVLM:不能检测异常的存在位置; | |||
研究目的 |
| |||
研究方法 | 利用预训练的图像编码器和LLM通过模拟异常数据来对齐IAD图像和对应的文本描述。引入了解码器模块和提示学习模块,以提高IAD性能并实现像素级定位输出。使用提示调整和与预训练数据的交替训练可以保持LLM的可转移性并防止灾难性遗忘。 AnomalyGPT模型架构包括图像编码器、线性层、局部线性模型、解码器、记忆库和提示学习器。在无监督学习中,模型使用中间层的补丁级特征和文本特征生成像素级异常定位结果。在少样本学习中,正常样本的补丁级特征存储在记忆库中,查询补丁与记忆库中最相似的补丁进行比较,从而得到异常定位结果。LLM利用图像输入、提示嵌入和用户提供的文本输入来检测异常并确定其位置,为用户生成响应。 | |||
结果 |
| |||
结论 | AnomalyGPT是一种新型的对话式图像异常检测模型,利用了LVLM的强大能力。它可以确定图像是否包含异常,并指出其位置,无需手动指定阈值。此外,AnomalyGPT还能够进行多轮对话,展现出在少量数据下的上下文学习能力。该模型在两个常见数据集上的有效性得到验证,为工业异常检测领域提供了新的思路和可能性。 | |||
亮点 |
| 不足 | ||