AnomalyGPT: Detecting Industrial Anomalies using Large Vision-Language Models

515 篇文章 3 订阅

已下架不支持订阅

AnomalyGPT是一种新型的工业异常检测方法,利用大型视觉语言模型(LVLMs)进行检测。它解决了LVLM在特定领域知识和局部细节理解上的不足,以及传统IAD方法需要手动设定阈值的问题。AnomalyGPT通过生成异常图像和描述进行训练,使用图像解码器和提示学习器进行微调,实现了自动评估异常存在和位置的功能,无需手动阈值调整。在小样本学习和多回合对话中表现出色,且在MVTec AD数据集上达到最先进的性能。
摘要由CSDN通过智能技术生成

本文是LLM系列文章,针对《AnomalyGPT: Detecting Industrial Anomalies using
Large Vision

AnomalyGPT:使用大型视觉语言模型检测工业异常

摘要

大型视觉语言模型(LVLMs),如MiniGPT-4和LLaVA,已经证明了理解图像的能力,并在各种视觉任务中取得了显著的性能。尽管由于大量的训练数据集,他们在识别常见对象方面有很强的能力,但他们缺乏特定的领域知识,对对象内的局部细节理解较弱,这阻碍了他们在工业异常检测(IAD)任务中的有效性。另一方面,大多数现有的IAD方法只提供异常分数,并且需要手动设置阈值来区分正常样本和异常样本,这限制了它们的实际实施。在本文中,我们探索了利用LVLM来解决IAD问题,并提出了一种新的基于LVLM的IAD方法AnomalyGPT。我们通过模拟异常图像并为每个图像生成相应的文本描述来生成训练数据。我们还使用图像解码器来提供细粒度语义,并设计一个提示学习器来使用提示嵌入来微调LVLM。我们的异常GPT消除了手动阈值调整的需要,从而直接评估异常的存在和位置。此外,AnomalyGPT支持多回合对话,并表现出令人印象深刻的小样本上下文学习能力。只需一个正常的样本,AnomalyGPT就可以实现86.1%的准确率、94.1%的图像级AUC和95.3%的像素级AUC的最先进性能。在MVTec AD数据集上。代码可在

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值