点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:3D视觉工坊
添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
扫描下方二维码,加入「3D视觉从入门到精通」知识星球(点开有惊喜),星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
0.这篇文章干了啥?
这篇文章提出了一种基于大规模视觉-语言模型的工业缺陷检测框架——EIAD。该框架通过结合视觉和语言模型,能够在零-shot设置下进行精准的缺陷分割和定位,并提供详尽的解释。文章在多个公开数据集(如MVTec AD、ViSA和MVTec 3D-AD)上进行实验,验证了EIAD在不同工业场景中的强大泛化能力和优越性能。通过与现有的异常检测方法比较,EIAD在缺陷定位和分类任务上取得了最佳结果。消融实验表明,EDD模块对提高异常分割质量起到了关键作用。总的来说,EIAD展示了在工业缺陷检测领域的广泛应用潜力。
下面一起来阅读一下这项工作~
1. 论文信息
论文题目:EIAD: Explainable Industrial Anomaly Detection Via Multi-Modal Large Language Models
作者:Zongyun Zhang,Jiacheng Ruan等
作者机构:Shanghai Jiao Tong University
论文链接:https://arxiv.org/pdf/2503.14162
2. 摘要
工业异常检测(IAD)对于确保制造过程中的产品质量至关重要。尽管现有的零-shot缺陷分割和检测方法已经显示出有效性,但它们无法提供缺陷的详细描述。此外,工业异常检测中大规模多模态模型的应用仍处于初期阶段,面临着在平衡问答(QA)性能和基于掩膜的定位能力之间的挑战,这通常是由于在微调过程中出现过拟合现象。为了解决这些问题,我们提出了一种新方法,引入了一个专门的多模态缺陷定位模块,将对话功能与核心特征提取进行解耦。通过独立的优化目标和量身定制的学习策略实现了解耦。此外,我们还贡献了第一个多模态工业异常检测训练数据集,命名为缺陷检测问答(DDQA),涵盖了广泛的缺陷类型和工业场景。与传统依赖GPT生成数据的数据集不同,DDQA确保了数据的真实性和可靠性,为模型训练提供了坚实的基础。实验结果表明,我们提出的方法——可解释的工业异常检测助手(EIAD)在缺陷检测和定位任务中表现出色。它不仅显著提高了准确性,还改善了可解释性。这些进展突显了EIAD在工业应用中的潜力。 关键词——工业异常检测、大型视觉语言模型、零-shot设置、DDQA数据集
3. 效果展示
DDQA集中的四项任务示例
4. 主要贡献
我们开发了第一个专为工业异常检测量身定制的数据集,命名为DDQA-set(缺陷检测问答数据集)。该数据集涵盖了四个不同的任务,包含了多种缺陷类型和场景。与传统数据集不同,我们避免了使用如GPT等预训练模型生成的合成数据,确保了数据的真实性和可靠性。
我们的方法通过引入专门的多模态缺陷定位模块,将对话和定位能力解耦,支持独立的优化目标和分阶段学习策略,以减少过拟合并增强泛化能力。
大量实验表明,与现有方法相比,EIAD在缺陷定位和语言交互方面表现出优越的性能。
5. 基本原理是啥?
EIAD(End-to-End Industrial Anomaly Detection)框架的基本原理是通过大规模视觉-语言模型(Vision-Language Models, VLMs)来进行工业缺陷检测。它利用视觉和语言的结合,能够不仅检测到缺陷的存在,还能提供对缺陷的详细解释和精确定位:
视觉-语言结合:EIAD结合了视觉信息(如图像或视频)和语言信息(如文本描述或提示),通过大规模的视觉-语言模型来理解图像中的缺陷特征,并将其与预定义的文本描述进行关联。
零-shot设置:EIAD框架在零-shot学习的设置下进行训练,意味着模型在测试时没有见过特定的训练数据,增强了其泛化能力,能够适应新的和未见过的工业缺陷。推荐课程:国内首个3D缺陷检测实战教程。
多模块结合:该框架通过不同的模块来实现缺陷检测,包括EDD(Error Description Generation)模块来生成缺陷的详细描述,以及MLDM(Multi-modal Learning and Detection Module)模块来进行多模态学习和缺陷检测。
精确定位与解释:EIAD不仅能够检测缺陷,还能精确地定位缺陷区域,并提供清晰的解释,帮助用户理解模型的检测结果。
泛化能力:EIAD在多个公开数据集上的测试表明,模型具有强大的泛化能力,能够应对不同的工业缺陷类型和场景。

6. 实验结果
评价指标:
AUROC (Area Under Receiver Operating Characteristic)、F1-max (F1得分在最优阈值下) 和 AP (Area Under Average Precision) 用于评估模型的异常定位性能。这些指标用于衡量EIAD在工业缺陷检测中的准确性和鲁棒性。
EIAD在 MVTec AD 和 ViSA 两个广泛使用的公开基准数据集上表现优异,尤其在零-shot工业异常分割任务中,展现了较强的泛化能力。
与其他方法的比较:
与LVLMS模型比较:在MMAD数据集上,EIAD的表现超越了所有基准方法,特别是在缺陷定位和分类任务中取得了最好的结果。EIAD与一些大型开源模型以及多数闭源模型相比,表现出相当的效果,甚至更优。
与异常检测方法比较:EIAD在MVTec AD和ViSA数据集上与其他零-shot IAD方法(如WinCLIP、SAA+、AnoCLIP和CLIP Surgery)进行了比较。结果表明,EIAD在定位异常区域的能力上超越了所有基准模型。
3D异常检测的验证:为了验证EIAD的泛化能力,还使用了3D异常检测数据集MVTec 3D-AD,对其RGB图像进行异常分割,结果表明EIAD同样能有效检测3D图像中的异常。
消融实验:
在消融实验中,去除EDD(Error Description Generation)模块后,EIAD的异常分割性能出现了明显下降。没有EDD模块的情况下,仅通过简单的提示信息(如“请识别图像中的缺陷并输出分割掩膜”)进行分割,结果表明EDD模块在生成详细缺陷描述时,极大提升了异常分割的效果。
7. 总结 & 未来工作
在这项工作中,我们将大规模视觉-语言模型应用于工业缺陷检测。所提出的框架EIAD在缺陷检测中表现出色,提供了全面的解释和精确的定位。此外,它在广泛的操作场景中表现出了强大的泛化能力。然而,仍然存在改进的空间。例如,可以丰富多模态数据集的任务和内容,并简化模型结构中冗余的部分。
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:
工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:四旋翼建模、无人机飞控等
2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群
添加小助理: cv3d001,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。
▲长按扫码添加助理:cv3d001 3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球(点开有惊喜),已沉淀6年,星球内资料包括:秘制视频课程近20门(包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等)、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。
▲长按扫码加入星球 3D视觉工坊官网:www.3dcver.com卡尔曼滤波、大模型、扩散模型、具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。
▲ 长按扫码学习3D视觉精品课程
3D视觉模组选型:www.3dcver.com — 完 —
点这里👇关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
3D视觉科技前沿进展日日相见 ~