论文链接:Generative Physical AI in Vision: A Surveyhttps://arxiv.org/html/2501.10928
文章主要内容:
回顾计算机视觉领域中基于物理感知的生成模型,讨论生成式AI通过整合物理仿真和动态模拟成为“世界模拟器”的潜力,根据其如何通过显式模拟或隐式学习来整合物理知识,对方法进行分类,分析关键范式,讨论评估方式,并确定未来的研究方向。
介绍
回顾生成模型发展,扩散模型因其卓越的鲁棒性和多功能性成为最近生成方法的基石。生成模型的应用跨越了视觉内容的多种形式,包括具有语义理解的图像生成,具有动态时间理解的视频生成,具有增强空间理解的3D内容生成,以及具有更复杂和组合理解的4D内容。这些进步强调了生成性学习在日益复杂的视觉任务的广阔前景中不断增长的潜力。
为实现多种类型下游任务,生成过程应该能够与来自人类或其他系统的外部控制进行交互。这种交互性促进了动态决策和基于交互的结果优化,从而产生了可以被描述为生成交互环境的东西。视频生成与各种交互式控制信号结合,交互元素突出了生成视频模型的多功能性和适应性,为它们演变为世界模型铺平了道路。
然而,在从生成到鲁棒世界建模的过渡中仍然存在一个关键差距:忠实地理解和复制现实世界物理的能力。目前最先进的模型主要针对像素空间中的视觉真实感进行了优化,而不是实体或概念空间中的物理合理性。为了使生成模型成为物理世界的模拟器,它们必须包含对物理定律的深刻理解,例如动力学、因果关系和材料属性。这种物理意识对于超越生成视觉上吸引人的输出,以确保内容也与物理世界的约束和行为保持一致至关重要。
公式
本节内容:
1. 提供物理感知生成和相关概念的定义,例如物理模拟和物理理解;
2. 在定义的基础上,进一步识别将物理纳入视觉生成模型的常见范式,为本调查后面的部分提供结构视角。
定义
:具有物理参数
的物理仿真模型;
:生成模型。
物理仿真(Physics Simulation, PS):
物理仿真是使用物理模型将输入观测
演化为输出观测
的过程,其中观测
,
可以来自不同的仿真步。
物理理解(Physics Understanding, PU):
物理理解是从观测(如视频数据)推断出底层物理模型
的过程。物理理解也可以在给定一个预定义的物理模型
的情况下,只推断物理参数
。
生成(Generation, G):
生成是使用生成模型从输入条件
创建新内容
的过程,输入和输出可以根据具体任务采取各种形式的模态。
不了解物理的生成(Physics-Unaware Generation, PUG):生成过程是通用的,并且不一定涉及对物理世界的深刻理解。
物理感知生成(Physics-Aware Generation,PAG):对现实世界物理有较强理解的生成过程。可基于生成模型是否明确地利用物理模拟模型来提高物理感知而分为两大类,包括:
1. 具有显式物理模拟的物理感知生成(Physics-Aware Generation with Explicit Physical Simulation, PAG-E);
2. 没有显式物理模拟的物理感知生成(Physics-Aware Generation without Explicit Physical Simulation, PAG-I);
该表格列出了以上几种概念的对比。
显式物理模拟的物理感知生成(PAG-E)的常见范式
生成到仿真(Generation to Simulation, GtS):
该范式是一种序列组合,其中仿真过程遵循生成过程。这类方法通常以后处理的方式将物理属性附加到生成表示中,使其具有可模拟性和交互性。
生成中仿真(Simulation in Generation, SiG):
此范式中,仿真模型作为生成模型的一部分或子模块被纳入。这种方法在生成中添加物理约束,时生成的视频、动态三维场景中的运动符合物理规律。
生成与仿真(Generation and Simulation, GnS):
此范式中,生成和仿真(通过使用共享模型M)同时发生,紧密耦合的生成和仿真过程的同时或相互关联。
仿真约束生成(Simulation-Constrained Generation, ScG):
此范式中,仿真模型用于向生成模型提供约束或知识,物理模拟对生成模型的训练施加约束或指导。
生成约束仿真(Generation-Constrained Simulation, GcS):
此范式中,生成模型用于为仿真模型提供约束或知识,生成模型作为模拟过程的指导或先验知识,例如将生成的视频作为参考,然后基于物理仿真最大化渲染视频与参考视频的视觉相似度。
仿真评估生成(SeG):此范式中,物理仿真用于评估生成模型或生成的内容用于在仿真环境中部署。
物理模拟
按照物理材料、仿真方法和现成物理引擎,总结了物理感知生成研究中常用的物理模拟的核心要素。本部分省略很多论文中的具体描述,感兴趣可以自行搜索。
物理材料:
刚体、软体、牛顿流体、非牛顿流体、粘弹性材料(如橡皮泥Plasticine)、弹性实体、粒状介质(如沙子、雪)、金属、固体、布料、薄壳物体、铰接体;
物理仿真方法:
基于连续介质力学的方法(Continuum Mechanics-based Method, CMBM)、物质点法(Material Point Method, MPM)、有限元法(Finite Element Method, FEM)、位置动力学(Position-Based Dynamics, PBD)、欧拉法(Eulerian Method, EM)、拉格朗日方法(lagrange Method, LM)、3D Spring-Mass Model(一种将可变形的物体离散成由弹簧连接的质量的物理仿真方法)、牛顿动力学、Φ-Flow(一种针对流体进行模拟的物理仿真方法)
其中物质点法(MPM)可以重点关注一下,可以看到后面很多模型都是基于该方法进行物理模拟的:
在对连续介质进行表达的数值模拟算法中,有两种主流观点。欧拉观点观察空间中固定点附近的介质属性,基于网格做数值积分,而拉格朗日观点将连续介质看作粒子组成的系统,基于粒子观察材料属性。欧拉视角擅长处理物质整体形态的变换,而拉格朗日视角则更利于处理物体本身的性质、粒子之间的关系等,各有优缺点,因此也有结合这两种视角对介质进行描述的物理仿真方案。
物质点法是目前较为先进的无网格混合欧拉、拉格朗日视角的方法。在物质点法中,物质被离散化为一系列的物质点,每个点携带质量、位置、速度等属性。物质点运动和力相互作用的计算在一个固定的背景网格上进行,并采用胞内粒子仿射变换方式进行粒子和网格间信息的映射。
物理引擎和平台:
Bullet Physics:开源物理引擎,广泛应用于游戏、动画和机器人仿真,包括刚体动力学、软体动力学、碰撞检测和物理约束;
Havok Physics:商业物理引擎,广泛应用于游戏和实时模拟,包括刚体、流体、布料和车辆物理模拟;
NVIDIA PhysX:NVIDIA开发物理引擎,支持gpu加速的实时仿真,包括粒子系统、布料、刚体动力学和流体模拟;
Unity Physics:Unity内置的物理引擎,支持2D和3D物理模拟,提供碰撞检测、刚体动力学、布
料和软体模拟;
Unreal Engine Physics(Chaos Physics):虚幻内置的物理引擎,支持大规模破坏、流体、布料、刚体和软体模拟;
Open Dynamics Engine:开源物理引擎,广泛应用于游戏、机器人和物理仿真,支持刚体动力学和碰撞检测;
Box2D:轻量级的开源2D物理引,专门为2D仿真设计,提供刚体动力学和碰撞检测;
Mantaflow:开源的流体和烟雾模拟引擎,支持高质量的流体、火和气体模拟;
Simulink/Matlab (Simscape Multibody):Matlab中的一个平台,用于多体动力学和机械系统仿真,适合机械系统、机器人和车辆的详细建模和仿真;
Blender:开源的3D创作套组,支持建模、雕刻、动画、渲染和模拟;
Isaac Gym:NVIDIA开发的高性能物理仿真平台,专门用于使用强化学习训练和测试机器人系
统。提供了一个gpu加速的框架,允许并行模拟多个环境,从而实现对智能体的更快训练;
Vortex Studio:主要为机器人、车辆和机械系统设计的高性能仿真平台,提供实时物理模拟,重点关注大型系统和复杂动力学;
PyBullet:Bullet Physics的Python接口,常用于机器人和强化学习,在机器学习环境中提供刚体动力学模拟;
Gazebo:一个机器人仿真平台,提供高保真的物理和传感器建模,与机器人操作系统(Robot
Operating System)集成,实现逼真的机器人仿真。
Genesis:是一个用于实体人工智能的开源平台,提供了一个高保真的物理环境来模拟机器人及其与物理世界的交互。专注于帮助智能体通过与环境的物理交互进行学习,支持操作、运动和现实世界决策等任务。
Taichi:一个结合Taichi编程框架来提高物理系统仿真效率和准确性的平台,通过集成优化和学习算法,可以实现自适应建模、实时仿真调整,以及对机器人、虚拟环境和科学仿真的数据驱动洞察。
物理理解方式
1.手动设置物理参数(Manually-Set Physical Parameters):在这种方法中,领域专家明确定义仿真中使用的物理属性和约束。这些参数可能包括材料特性(例如,质量、摩擦、弹性)、环境条件(例如,重力、流体动力学)和初始配置。虽然这种方法实用且被广泛使用,但它往往缺乏可扩展性和对复杂或多样化场景的适应性。
2.自动学习物理参数 (Automatic-Learned Physical Parameters):数据驱动模型可以通过从视觉观测中学习来自动推断物理参数,以避免不灵活的预定义参数。这些参数既可以在独立阶段单独估计,也可以与生成模型的参数联合优化。
3.大语言模型推理物理参数(LLM-Reasoned Physical Parameters),最近的多模态大语言模型能够同时使用文本和视觉信息对物理系统进行推理,通过利用上下文知识和常识性推理,大语言模型根据对象的描述推断出它们的物理材料和合理的物理配置以进行模拟。
物理感知生成(Physics-Aware Generation)
以下是一些物理感知生成模型,下表对其进行了标记和分类:
省略关于生成模型、生成对抗网络、扩散模型、NeRF、高斯泼溅的介绍。接下来的内容为结合综述论文对各范式中不同项目进行的简单总结,不完全是综述论文原文:
GtS
生成到仿真(GtS):
该范式是一种序列组合,其中仿真过程遵循生成过程。这类方法通常以后处理的方式将物理属性附加到生成表示中,使其具有可模拟性和交互性。
PIE-NeRF:[2311.13099] PIE-NeRF: Physics-based Interactive Elastodynamics with NeRF
首先用Instant-NGP对位置和纹理信息进行编码,并训练相应的NeRF场景。之后利用增广泊松盘采样在NeRF密度场中分布“粒子”,这些粒子形成目标3D模型的非结构化点云表示。然后将它们通过维诺图(Voronoi group)分组,形成模拟元素。维诺单元中心存放系统基于经典拉格朗日力学的三维模型动态平衡表示中的广义坐标,并分配多个积分点促进能量继承。采用二次广义移动最小二乘(Q-GMLS)策略对三维模型动态平衡表示的拉格朗日方程进行离散化。在GPU的帮助下,可以以交互速率甚至实时进行仿真,利用积分点处的变形信息生成具有高度真实感的动态场景,使用户能够通过应用外力、位置约束等方式与NeRF场景进行交互。
该方法的亮点在于以无网格方式离散非线性超弹性,从而消除了四面体网格或体素网格等中间辅助形状代理的必要性。采用二次广义移动最小二乘法 (Q-GMLS) 来捕获隐式模型的非线性动力学和大变形,这种无网格集成可以实现复杂和共维形状的多功能模拟。
PhysGaussian:[2311.12198] PhysGaussian: Physics-Integrated 3D Gaussians for Generative Dynamics
该工作首先构建具有各向异性正则化的高斯飞溅,并通过采用物质点法(MPM)支持潜在的物理动力学,将物理形变的规律集成到三维高斯函数中。高斯核被视为离散的粒子云,用于在空间上离散模拟连续体。当连续体发生形变,高斯核也发生形变,有变形映射描述其转换。
Spring-Gau:[2403.09434] Reconstruction and Simulation of Elastic Objects with Spring-Mass 3D Gaussians
Spring-Gaus是一种 3D 物理对象表示,用于从多个视点从对象的视频中重建和模拟弹性对象。该工作首先重建静态高斯,然后使用特别开发了的3D Spring-Mass 模型,从静态高斯采样锚点并通过“弹簧”连接,进行弹性行为的物理模拟。
VR-GS是一个基于物理感知的交互式虚拟现实系统,可沉浸式操作高斯泼溅表示的3D内容。该方法使用物理模拟器eXtended Position-based Dynamics(XPBD)来进行实时变形模拟。研究人员为每个分割的高斯核组构建了一个四面体笼,并将核组嵌入到相应的网格,变形网格在XPBD的驱动下引导高斯核的变形。
DreMa使用以对象为中心的高斯拼接重建三维场景,捕获高分辨率、可操纵的环境表示。然后将这些表示嵌入物理模拟器(如PyBullet),允许机器人以物理受限但灵活的方式在想象世界进行交互,从而想象对象的新型配置并预测机器人动作的未来后果。利用这种能力来可以生成新的数据来模仿学习,该项目展示了一个Franka Emika Panda机器人可以基于Drema提供的想象力支持进行一次性策略学习,学到新的物理任务。
SimAnything:[2411.12789] Automated 3D Physical Simulation of Open-world Scene with Gaussian Splatting
Sim Anything为静态三维场景赋予符合物理规律的交互动态,首先利用给定图像和相机姿态训练三维高斯静态场景,并基于图像分割模型生成包含语义特征的分割先验。使用亮度场渲染将分割出的
二维蒙版投影到三维空间从三维高斯中提取物体。
在完成初始三维高斯生成并对其进行分割后,从语义生成对图像的文字描述,并将描述和图像输入基于多模态大语言模型的物理属性感知(MLLM-P3)方法预测物体的平均物理属性,返回材料的密度、杨氏模量、泊松比等属性。
之后基于预测的平均物理属性和物体几何形状,用材质属性分布预测模型,将问题表述为概率分布估计任务,使用Physics3D模型对所有粒子的物理属性进行监督,对材料属性进一步进行估计。
最后,基于物理-几何自适应采样(PGAS)对粒子进行采样,结合物理几何信息,渲染高保真三维场景。为了减轻计算负担,该策略使用子采样方法,并根据杨氏模量E和曲率K使柔软、形状复杂的物体拥有更小的样本半径r,并使用MLS-MPM作为模拟器。
GASP:[2409.05819] GASP: Gaussian Splatting for Physic-Based Simulations
该模型将平坦高斯分布(参考D-MiSo、GaMeS工作,一种通过网格面的顶点参数化高斯组的方式)与物质点法(MPM)结合在一起,从GS中提取点,并应用MPM来控制这些点。
Phy124:[2409.07179] Phy124: Fast Physics-Driven 4D Content Generation from a Single Image
FeatureSplatting:[2404.01223] Feature Splatting: Language-Driven Physics-Based Scene Synthesis and Editing
LIVE-GS:[2412.09176] LIVE-GS: LLM Powers Interactive VR by Enhancing Gaussian Splatting
生成中仿真(Simulation in Generation, SiG):
此范式中,仿真模型作为生成模型的一部分或子模块被纳入。这种方法在生成中添加物理约束,时生成的视频、动态三维场景中的运动符合物理规律。
生成与仿真(Generation and Simulation, GnS):
此范式中,生成和仿真(通过使用共享模型M)同时发生,紧密耦合的生成和仿真过程的同时或相互关联。
仿真约束生成(Simulation-Constrained Generation, ScG):
此范式中,仿真模型用于向生成模型提供约束或知识,物理模拟对生成模型的训练施加约束或指导。
生成约束仿真(Generation-Constrained Simulation, GcS):
此范式中,生成模型用于为仿真模型提供约束或知识,生成模型作为模拟过程的指导或先验知识,例如将生成的视频作为参考,然后基于物理仿真最大化渲染视频与参考视频的视觉相似度。
仿真评估生成(SeG):此范式中,物理仿真用于评估生成模型或生成的内容用于在仿真环境中部署。