点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:3D视觉工坊
添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
扫描下方二维码,加入「3D视觉从入门到精通」知识星球(点开有惊喜),星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
0.这篇文章干了啥?
这篇文章提出了一个新的工业异常检测任务,重点关注需要物理理解和推理的现实场景。作者介绍了物理异常检测(Phys-AD)数据集,这是一个大规模的视频数据集,涵盖了多种物体和交互类型,并捕捉了47种需要视觉和物理推理的异常类型。文章还评估了该数据集,指出当前缺乏适用于高层次推理的基准方法,并提出了物理异常解释(PAEval)度量标准,用于评估视觉语言模型(VLMs)在物理推理中的表现。实验结果表明,现有的VLMs在处理基于物理的异常场景时无法达到人类级别的理解,推动了工业异常检测中物理推理的应用。
下面一起来阅读一下这项工作~
1. 论文信息
论文题目:Towards Visual Discrimination and Reasoning of Real-World Physical Dynamics: Physics-Grounded Anomaly Detection
作者:Wenqiao Li,Yao Gu等
作者机构:ShanghaiTech University等
论文链接:https://arxiv.org/pdf/2503.03562
2. 摘要
人类通过感知、互动和基于物体条件的物理知识进行推理来检测现实世界中的物体异常。工业异常检测(IAD)的长期目标是使机器能够自主地复制这一技能。然而,当前的IAD算法主要在静态、语义简单的数据集上开发和测试,这些数据集与现实世界的场景有所不同,后者需要物理理解和推理能力。为弥合这一差距,我们提出了物理异常检测(Phys-AD)数据集,这是第一个大规模、真实世界、基于物理的视频数据集,用于工业异常检测。该数据集使用真实的机器人臂和电机收集,提供了一组多样化、语义丰富的动态场景。数据集包括22个真实世界物体类别的6400多段视频,涉及与机器人臂和电机的互动,并展示了47种异常类型。Phys-AD中的异常检测需要视觉推理,结合物理知识和视频内容来确定物体异常。我们在三种设置下对最先进的异常检测方法进行了基准测试:无监督异常检测、弱监督异常检测和视频理解异常检测,突出了它们在处理基于物理的异常时的局限性。此外,我们还引入了物理异常解释(PAEval)指标,旨在评估视觉语言基础模型的能力,不仅能检测异常,还能提供准确的解释,说明其背后的物理原因。我们的数据集和基准将公开发布。
3. 效果展示
工业物体异常检测中物理动力学的视觉识别。我们说明了对象,交互和时间序列的视频从物理接地异常检测数据集:(a)对象;(B)交互:应用的动作显示方向箭头;(c)视频与物理动力学:时间序列显示正常和异常状态,突出异常,如泄漏,错位,和裂缝。通过关注复杂对象的动态行为,我们增强了对现实世界中的交互和故障模式的理解,其中结构和运动都有助于异常检测。

4. 主要贡献
我们引入了一项新的任务,即检测现实世界中基于物理的工业异常,涉及感知、物理和视觉推理。
我们提出了Phys-AD,这是第一个大规模、基于物理的视频数据集,专为现实世界中的工业异常检测而设计,包含具有不同物理特性的物体、多种交互方式和各种物理推理过程。
我们在多个设置下基准测试了流行的视频异常检测方法和视觉语言基础模型在Phys-AD数据集上的异常检测和推理性能,建立了一个实用且具有挑战性的基准,推动物理相关异常检测领域的发展。
5. 基本原理是啥?
这篇文章的基本原理是通过结合物理理解和推理来进行工业异常检测。作者提出了一种新的数据集——物理异常检测(Phys-AD),用于在复杂的工业场景中检测异常。在这个任务中,异常不仅仅是基于视觉信息,还需要结合物体的物理特性和与机器人系统的交互来进行推理。
文章的基本流程分为两步:第一步是通过与物体的交互,结合物理先验知识,推导出正常的规则;第二步是在测试阶段,通过这些规则和新的交互视频来推断物体的异常分数。整个过程强调了长期时间依赖和物理现象对异常检测的影响。推荐课程:彻底搞懂大模型数学基础剖析、原理与代码讲解。
此外,文章还提出了一个新的评估标准(PAEval),用于衡量视觉语言模型(VLMs)在物理推理中的表现,实验表明现有模型在处理物理异常时存在显著不足。


6. 实验结果
实验结果表明,现有的视频异常检测方法在Phys-AD数据集上的表现有限,最高的AUROC仅为66.9%(来自MNAD.r方法)。这一结果表明,Phys-AD数据集的复杂性较现有数据集更高,突显了当前工业异常检测算法的局限性,这些算法通常被调试用于处理单帧中视觉上明显的异常模式,而不是需要复杂时间或物理线索的场景。
在不同的实验设置下,实验结果如下:
无监督异常检测:
采用无监督方法(如MemAE、MPN、MNAD等)时,MNAD.p方法在时间异常(如风扇、螺钉)上表现较好,取得了81.0%的AUROC(风扇)和68.0%的AUROC(螺钉)。这些方法通过利用基于预测的方式增强了时间理解能力。
弱监督异常检测:
在弱监督设置下,方法如S3R、MGFN和VADClip通过在训练中引入少量标注的异常样本,改善了复杂类别的表现,在一些挑战性类别(如球轴承)中避免了极低的得分。然而,弱监督方法在一些较简单的异常类别上表现稍差,表明训练中引入的异常样本可能导致了性能的折衷。
基于视频语言模型(VLM)的方法:
VLM方法(如Video-ChatGPT、VideoLLaMA)表现较差,最好的方法VideoLLaMA也仅达到了52.3%的平均AUROC。其表现受限于依赖于预训练权重,这些权重并未针对物理基础的视频内容进行优化,特别是在涉及细微物理动态(如铰链和螺钉)类别时,得分较低。
PAEval评估结果表明,这些模型在推理物体的物理动态和行为时效果较差,无法有效地理解和推理物理场景中的异常。
异常解释:
PAEval度量的结果表明,当前的VLM在异常描述和解释方面存在明显不足。最好的VLM仅在描述和解释方面分别取得了21.9%和30.3%的得分,显示出现有模型在处理物理异常场景时的深度推理和时间连贯性方面的缺陷。



7. 总结 & 未来工作
在本文中,我们介绍了首个聚焦于现实场景的工业异常检测任务,其中物理理解和推理对于异常检测至关重要。我们提出了物理异常检测(Phys-AD)数据集,这是一个大规模、基于物理的视频数据集,包含超过6400个视频,涵盖22个类别和49种物体类型,这些物体与机器人系统进行交互,捕捉47种需要视觉和物理理解的异常类型。我们评估了Phys-AD,突出了在异常检测中进行高层次推理的基准方法的缺乏。此外,我们提出了物理异常解释(PAEval)度量,用于评估视觉语言模型(VLMs)在物理推理方面的表现。实验表明,当前的VLMs在基于物理的异常场景中无法达到人类级别的理解。此项工作为工业异常检测设立了一个里程碑,推动了在复杂工业环境中基于物理的推理。
局限性与未来工作。尽管我们的Phys-AD数据集提供了种类繁多、具有不同物理属性的物体,以及各种交互方式,但我们计划在未来添加更多种类的交互方式和物体,以更好地满足复杂现实工业场景的需求。由于我们的Phys-AD数据集与当前的工业异常检测和视频异常检测数据集之间存在显著差异,大多数现有的异常检测算法无法直接应用于我们的数据集。未来,我们将对更多算法在Phys-AD数据集上的表现进行测试,并提供在零样本、少样本、半监督等设置下的实验结果。
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:
工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:四旋翼建模、无人机飞控等
2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群
添加小助理: cv3d001,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球(点开有惊喜),已沉淀6年,星球内资料包括:秘制视频课程近20门(包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等)、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。
卡尔曼滤波、大模型、扩散模型、具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。

3D视觉模组选型:www.3dcver.com
— 完 —
点这里👇关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
3D视觉科技前沿进展日日相见 ~