【论文翻译】(UAI 2018)使用感知预测网络进行潜在物理属性的无监督学习

译者:子鱼
论文地址:https://arxiv.org/pdf/1807.09244.pdf
参考文献和补充材料请见原文。译者水平有限,错误难免,恳请读者批评指正。译者目前正在做这个方向的研究,欢迎读者与我交流,可博客留言或发邮件至infinitylyceum@163.com

摘要

我们提出了一个从潜在物体的相互作用中学习其属性的完全无监督的框架:感知-预测网络(PPN)。PPN由一个感知模块和一个预测模块组成,感知模块提取潜在物体属性的表示,预测模块使用这些提取的属性来模拟系统动力学,PPN可以完全从物体动力学样本进行端到端的训练。通过PPN学习到的潜在物体属性表示不仅足以精确地模拟由以前没见过的物体组成的系统的动力学,而且可以在完全无监督的方式下直接转化为可解释的属性(例如质量、恢复系数)。至关重要的是,PPNs也适用于新的场景:基于梯度的训练可以应用于许多动力系统,基于图的结构函数可以应用于由不同数量的对象组成的系统。我们的结果证明了基于图的神经结构在以物体为中心的推理和预测任务中的有效性,并且我们的模型有潜力在尚未被很好理解的系统中发现相关的物体属性。

1 介绍

物体的物理特性与物理定律结合在一起,支配着我们世界中物体运动和相互作用的方式。为观察到的对象分配属性可以帮助我们总结对这些对象的理解,并更好地预测它们的未来行为。通常,这些性质的发现可以在很少的监督下进行。例如,通过观察一个弓箭手射出几支箭,我们可能总结出弓弦的张力、风的强度和方向、箭的质量和阻力系数等特性都会影响箭的最终轨迹。即使在完全陌生的微观世界中观察,人类仍然能够了解到系统的相关物理特性[1]。

我们的工作利用神经关系网络的最新进展,以无监督的方式学习系统的潜在物理特性。特别是,神经关系体系结构[2,3]已被证明能够准确地模拟涉及具有已知物理属性对象的复杂物理交互作用。关系网络有几个特点,使它们特别适合我们的任务:它们是完全可微的,这允许它们应用于各种不同的情况,而不需要任何架构更改;他们有一个模块化的基于图的结构,概括了不同数量的对象;它们的基本结构可以很容易地应用于动力学预测和潜在性质的学习。

我们使用关系网络来构造感知-预测网络(PPN),这是一个新的系统,使用一个表示学习[4]范式,纯粹通过观察来提取一个物理系统的属性编码。以前的神经关系结构只使用关系网络来预测具有已知属性值的对象状态,与此不同的是,我们使用关系网络来创建一个感知网络(从观察中获得属性值)和一个预测网络(给定属性值预测对象位置)。通过观察由具有不同属性值的对象组成的系统的动力学,PPN能够推导出与物理模拟相关的潜在属性的无监督表示。这些学习的表征可以直接转化为人类可解释的属性,如质量和恢复系数。

我们的系统的一个重要方面是泛化,这是人类在推断新系统的潜在特性时所擅长的。我们提出的系统在几种形式的泛化下是健壮的,我们的实验证明了我们的无监督方法识别可解释的属性的能力,即使在训练和测试中面对不同数量的对象,以及属性值在以前没见过的范围内。

我们评估了PPN的两个主要功能:对未见过的对象的动力学预测的准确性和通过模型学习到的的属性的可解释性。实验结果表明,该模型能够准确地模拟具有未知属性值的复杂多相互作用系统的动力学过程,只需经过较短的观测周期即可推断出这些属性值。此外,我们证明,通过我们的模型学习的表示,可以很容易地使用完全无监督的方法转换成相关的人可解释的属性。此外,我们使用几个实验表明,动力学预测的准确性和性质的可解释性都很好地推广到新的场景与不同数量和配置的对象。最终,PPN为发现物理系统的潜在特性和模拟其动力学提供了一个强大的通用框架。

2 相关工作

以往建立直观物理模型的方法主要分为两大类:自顶向下的方法,为现有的符号物理引擎推断物理参数[1,5,6,7,8,9];以及自底向上的方法,直接预测物理量或给定观测的未来运动[10,11,12,13,14,15,16]。尽管自顶向下方法能够很好地泛化到其底层物理引擎支持的任何情况(例如,不同数量的物体、以前未见过的属性值等),但它们很难适应其底层描述语言不支持的情况,需要手动修改以支持新的交互类型。另一方面,自底向上的方法通常能够学习以前没有见过的情况的动力学而不需要手动修改,尽管它们通常缺乏以与自顶向下方法相同的方式进行概括的能力。

最近,一种混合方法使用了神经关系网络(更一般的基于图的神经网络的一个具体实例[17,18])来获得自顶向下方法的泛化优势,而不需要底层的物理引擎。关系网络依靠可交换和可结合的运算(通常是向量加法)来组合对象状态向量之间的成对交互,以预测未来的对象状态[19]。这些网络已经成功地模拟了库仑电荷、物体碰撞(具有或不具有完全弹性)和弹簧张力等相互作用下的多物体动力学[2,3,20,21]。类似于自顶向下的方法,关系网络能够在不修改网络权值的情况下,将其对目标位置和速度的预测推广到不同数量的目标(例如,训练6个目标,测试9个目标);此外,它们是完全可微的架构,可以通过在各种交互作用下的梯度下降来训练。我们的论文以一种新颖的方式利用了交互网络,首次证明了它作为感知模块和无监督表示学习的一个组成部分的有效性。

其他的研究着眼于对潜在物体属性的监督和无监督学习,试图反映人类在物理环境中能够执行的物体属性的推断[1]。Wu等人[9]利用了一个深度模型和一系列物理定律,从原始视频输入来估计质量、体积和材料等属性。Fraccaro等人[22]使用变分自动编码器推导出单个弹跳球域的潜在状态,然后使用该域的卡尔曼滤波进行模拟。Chang等人[3]证明,他们的基于关系网络的物理模拟器也能够通过将每种可能的模拟输出与现实相比较,对一组可能的属性值进行最大似然推断。我们的论文更进一步,表明物理性质可以从仅仅是原始的多物体运动数据中学习。最近,Kipf等人[23]也利用关系网络来推断对象之间的范畴交互的一致性;相反,我们的论文关注的是对象属性的学习。

3 模型

3.1 感知-预测网络

PPN观察具有未知潜在属性(例如质量、恢复系数)的物体的物理动力学,并学会生成这些物体属性的有意义的表示,以便用于以后的模拟。整个网络的概述如图1所示,PPN由以下两部分组成:

  • 感知网络在一个短的观察窗内以物体运动的帧序列作为输入。它为场景中的每个对象输出一个属性向量,为该对象编码相关的潜在物理属性。每个输入帧是一组状态向量,由每个物体的位置和瞬时速度组成。在训练过程中,没有对属性向量给出直接的监督目标。
  • 预测网络使用感知网络生成的属性向量来模拟不同初始设定的对象。网络以感知网络生成的属性向量和所有对象的新的初始状态向量作为输入。它的输出是从对象的新开始状态开始的未来状态的rollout(一条轨迹)。预测网络的训练目标是rollout序列的真实状态。

图1图1:模型概述。PPN遵循的无监督对象属性发现范式从对象动力学样本中提取属性向量,以准确预测这些对象的新轨迹。将无监督学习方法应用到学习向量中,可以提取人可解释的对象属性。

图2 图2:模型架构。PPN用观察到的状态序列 O 1 , … , O T O_1,…,O_T O1,,OT和初始状态 R 0 R_0 R0来开始新的rollout。编码向量 C 1 , … , C T C_1,…, C_T C1,,CT利用交互网络由观察状态导出,最终的属性向量 Z Z Z由感知网络产生。对于给定初始状态 R 0 R_0 R0的新rollout,预测网络利用属性向量来递归预测未来物体状态 R 1 , R 2 , … R_1, R_2,… R1,R2,。我们对PPN进行训练,使这些时间步长预测的rollout状态和真实状态之间的L2距离最小化。

我们使用交互网络[2]来实现感知和预测网络,这是一种特殊类型的神经关系网络,它是完全可微的,可以推广到任意数量的对象。这使得我们可以使用梯度下降对两个网络进行端到端的训练,只使用预测网络的rollout目标的监督信号,将感知网络输出的属性向量直接输入到预测网络中。

3.2 交互网络

交互网络(IN)是一种关系网络,它是感知网络和预测网络的基础。在高水平上,交互网络使用多层感知器(MLPs)实现两个模块化函数,关系模型 f r e l f_rel frel和对象模型 f o b j f_obj fobj,用于把一组特定对象的输入特征 { x ( 1 ) , … , x ( N ) } \{x^{(1)},…,x^{(N)}\} {x(1),,x(N)}转换为特定对象的输出特征 { y ( 1 ) , … , y ( N ) } \{y^{(1)},…,y^{(N)}\} {y(1),,y(N)},其中 N N N是系统中对象的数量。给定对象 i i i j j j的输入特征, f r e l f_rel frel计算出对象 j j j对对象 i i i的“效果”向量为 e ( i , j ) = f r e l ( x ( i ) , x ( j ) ) e^{(i,j)}= f_rel(x^{(i)},x^{(j)}) e(i,j)=frel(x(i),x(j))。网络对对象 i i i的影响 e ( i ) e^{(i)} e(i)是对象 i i i上所有成对效应的向量和 ∑ j ≠ i e ( i , j ) \sum_{j\ne i}e^{(i,j)} j=ie(i,j)。最后,对象 i i i的输出为 y ( i ) = f o b j ( x ( i ) , e ( i ) ) y^{(i)}= f_obj(x^{(i)},e^{(i)}) y(i)=fobj(x(i),e(i))。重要的是, f r e l f_rel frel f o b j f_obj fobj是应用于所有对象和对象-对象交互的共享函数,允许网络泛化不同数量的对象。

交互网络能够学习具有复杂物理动力学的系统的状态到状态的转换函数。然而,更普遍的情况是,交互网络可用于为输入和输出特性特定于特定对象的函数建模,并且对于每个对象,输入和输出之间的关系是相同的。

当我们的预测网络使用交互网络来模拟状态转换时,我们的感知网络使用交互网络来根据观察到的证据对对象潜在属性的值进行增量更新。

3.3 感知网络

感知网络从一系列观察到的状态 O O O中产生特定对象的属性向量 Z Z Z。如图2所示,我们的感知网络是一个使用交互网络作为其核心递归单元的递归神经网络。感知网络从特定于对象的编码向量 C 1 C_1 C1开始,初始化为零向量,每个向量有固定的大小 L C L_C LC。在每一步 t t t中,IN获取前面的编码向量 C t − 1 C_{t-1} Ct1以及最后两个观察到的状态 O t − 1 O_{t-1} Ot1 O t O_t Ot,以生成更新后的编码向量 C t C_t Ct,其大小也为 L C L_C LC。在处理完所有的观察帧 T O T_O TO后,感知网络将最终的编码向量 C T O C_{T_O} CTO输入到一个单独的MLP中,该MLP将每个对象的编码向量转换为每个对象的大小为 L Z L_Z LZ的“无中心”属性向量。我们将无中心属性向量的最终集合表示为 Z u Z_u Zu

在许多物理系统中,在绝对尺度上测量物体的潜在属性可能是不可能或不可取的。例如,在一个两个球弹性碰撞的系统中,一次碰撞只能告诉我们每个物体相对于另一个物体的质量,而不是它们的绝对质量值。为了允许对绝对属性值进行推断,我们让每个系统的第一个对象作为参考对象,并在每个系统中使用相同的属性值。在此过程中,我们可以通过观察其他所有对象相对于参考对象的值来推断它们的绝对属性值。为了加强对参考对象的推断,我们通过从每个对象的非居中属性向量中减去参考对象的非居中属性向量来“居中”属性向量,从而产生最终的属性向量 Z Z Z。注意,这确保了参考对象的属性向量始终是零向量,这与它的属性已知为常量这一事实相一致。我们可以用以下公式来总结感知网络:

C 1 = 0 C t = I N p e ( C t − 1 ∣ ∣ O t − 1 ∣ ∣ O t ) , for  t = 2 , … , T O Z u ( i ) = M L P p e ( C T O ( i ) ) , for  i = 1 , … , N Z ( i ) = Z u ( i ) − Z u ( 1 ) , for  i = 1 , … , N C_1=\bold{0}\\C_t=\bold{IN}_{pe}(C_{t-1}||O_{t-1}||O_t), \text{for}\ t=2,\dots,T_O\\ Z_u^{(i)}=\bold{MLP}_{pe}(C_{T_O}^{(i)}), \text{for}\ i=1,\dots,N\\ Z^{(i)}=Z_u^{(i)}-Z_u^{(1)}, \text{for}\ i=1,\dots,N C1=0Ct=INpe(Ct1Ot1Ot),for t=2,,TOZu(i)=MLPpe(CTO(i)),for i=1,,NZ(i)=Zu(i)Zu(1),for i=1,,N

其中 ∣ ∣ || 是面向对象的串联操作, I N p e \bold{IN}_{pe} INpe是感知交互网络, M L P p e \bold{MLP}_{pe} MLPpe是把编码转化为属性的MLP, Z u ( 1 ) Z_u^{(1)} Zu(1)是参考对象的非居中属性向量。

3.4 预测网络

预测网络利用感知网络产生的属性向量,从一个新的初始状态 R 0 R_0 R0开始对系统进行状态到状态的rollout。与感知网络一样,预测网络也是具有交互网络核心的递归神经网络。在第 t t t步,IN获取前一个状态向量 R t − 1 R_{t-1} Rt1和属性向量 Z Z Z,并输出下一个状态向量 R t R_t Rt的预测。换句话说:
R t = I N p r ( R t − 1 ∣ ∣ Z ) , for  t = 1 , … , T R R_t=\bold{IN}_{pr}(R_{t-1}||Z), \text{for}\ t=1,\dots,T_R Rt=INpr(Rt1Z),for t=1,,TR
这里 I N p r \bold{IN}_{pr} INpr是预测交互网络, T R T_R TR是rollout的帧数。

模型的预测损失函数是预测值与真实值 { R t } t = 1 … T R \{R_t\}_{t=1\dots T_R} {Rt}t=1TR之间的总MSE。

4 实验

4.1 物理系统

在我们的实验中,我们关注于潜在属性推断任务和后续动力学预测任务都具有挑战性的二维域。在所有系统中,第一个对象作为参考对象并具有固定的属性。所有其他对象的属性都可以相对于参考对象的属性推断出来。我们在以下的域评估PPN(见图5):

  • 弹性 质量相等的球具有一种叫做“弹性荷”*(spring charge, charge有电荷之意——译者注)*的假想性质,它们相互作用,就好像所有成对的物体都是由遵循胡克定律的弹簧控制的。参考对象的弹性荷为1,而其他所有对象的弹性荷都是从[0.25,4]上的的对数均匀分布中独立随机选择的。连接任意一对物体的弹簧的弹性系数是两个物体的弹性荷的乘积,所有弹簧的平衡距离是一个固定的常数。
  • 完全弹性碰撞 半径固定的球在封闭的盒子里弹性碰撞。参考对象的质量为1。其他所有的球的质量都是从[0.25,4]上的的对数均匀分布中独立随机选择的。围绕着这些球的四堵墙具有无限的质量,并且不会移动。
  • 非完全弹性碰撞 在上一个域的基础上,我们通过添加恢复系数(COR)来引入额外的复杂性,作为每个对象的另一个变化的潜在属性。一次碰撞的COR是两个碰撞物体沿垂直于接触平面的轴的最终相对速度与初始相对速度的比值。例如,在完全弹性情况,所有碰撞的COR都是1。我们设定所有的球的COR都是从[0.5,1]上的的均匀分布中独立随机选择的。参考对象的COR为0.75。用于计算两个球之间的碰撞动力学的COR被定义为两个碰撞对象的COR的最大值。当一个球与墙碰撞,球的COR用于碰撞。

对于每个域,我们在一个包含 1 0 6 10^6 106个样本的拥有6个对象的数据集上训练PPN,并在一个包含 1 0 5 10^5 105个样本的拥有6个对象的数据集上验证。每个样本由50个观测帧作为感知网络的输入和24个rollout帧作为预测网络的目标组成。我们在拥有3、6和9个对象的测试集上评估我们的模型,每个测试集有 1 0 5 10^5 105个样本。

此外,我们还希望证明PPN推广到潜在属性超出训练中看到的值范围的新对象的能力。在这个实验中,我们在一个新的有 1 0 5 10^5 105个样本的2个对象完全弹性球数据集上测试我们的模型。第一个球的质量仍然固定在1,而第二个球的质量从11个值里选择,这11个值的范围从 3 2 − 1 32^{-1} 321到32,在对数尺度间隔均匀。我们在弹性域中做了一个类似的实验,使用同样的11个值作为第二个物体的弹性荷。

我们使用matter-js,一个通用的刚体物理引擎,用于生成真实值数据。在所有的模拟中,球被包含在一个512px×512px的封闭盒子中。每个球有一个50像素的半径和随机初始化的位置,这样球没有重叠。在弹性域中,从[-15,15]px/sec范围内均匀随机选取初始x、y速度分量,每个弹簧的平衡位移为150,所有球的质量为 1 0 4 10^4 104。在完全弹性碰撞域中,初始速度分量选取范围为[-9,9]px/sec。在非弹性碰撞域中,它们的选取范围为[-13,13]px/sec。每个数据集的帧以120帧每秒的速度采样。

在创建我们的弹球数据集时,我们使用拒绝采样来过滤一些无法从观察帧中推断出的对象潜在属性的模拟。在每种弹球域中,我们必须能够推断出每个物体的质量。为了保证这一点,每个对象必须直接与参考对象碰撞,或者通过一系列碰撞间接与参考对象连接。对于非弹性区域,我们必须确保每个对象的COR也可以推断出来。在球-球碰撞中,只有较高的对象COR用于确定碰撞动力学,因此只有较高的对象COR可以从碰撞中推断出来。因为这个原因,每个球必须要么与COR较低的球或一堵墙碰撞。

4.2 模型架构

我们在所有的实验中使用单一的模型架构。我们将每个编码向量的大小 L C L_C LC设置为25,将每个属性向量的大小 L Z L_Z LZ设置为15。模型中所有的MLP,包括交互网络中的MLP,都使用带有ReLU激活的线性隐藏层和一个线性输出层。

按照Battaglia等人[2]的整体结构,感知网络的IN核心由大小为[75,75,75,50]的4层关系为中心的MLP和大小为[50,50,25]的3层对象为中心的MLP组成。由IN输出的最终的编码向量输入到另一个大小为[15,15,15]的以对象为中心的MLP中,以产生大小为15的最终潜在属性向量。预测网络的IN核心是一个以关系为中心的大小为[100, 100, 100, 100, 50]的5层MLP和一个3层以对象为中心大小为[50,50,4]的MLP,用于预测每个对象的下一个位置和速度。

感知网络和预测网络使用单一的训练损失进行端到端的训练,我们称之为预测损失。预测损失是24个rollout时间步内所有对象的预测与实际状态向量的MSE的未加权和。此外,我们在感知网络和预测网络的“效应”层应用L2正则化。这种正则化鼓励在交互过程中进行最小程度的信息交换,并被证明是一般化到不同数量的对象的关键组成部分。我们通过网格搜索为每个正则化项选择惩罚因子。我们还实验了在属性向量上使用 β \beta β-VAE正则化[24,25],以鼓励学习可解释的和分解的属性。

为了提高在模拟长时间铺展时的稳定性,我们在整个rollout上为每个状态向量添加了少量的高斯噪声,迫使模型进行误差自校正。通过实验,我们发现设置噪声std. dev.等于0.001乘以数据集上每个状态向量元素值的std. dev.,可以稳定rollout位置而不影响损失。我们对模型进行了150个epoch的训练,并使用Adam[26]对256个小批量对模型参数进行了优化。我们使用瀑布方法,即开始时学习率为 5 × 1 0 4 5×10^4 5×104,和缩减规模0.8每次验证误差,估计10个epoch的一个窗口,停止下降。

5 结果

5.1 提取潜在属性

结果表明,对象的物理属性被成功地编码到感知网络输出的属性向量中。事实上,我们可以对训练过程中感知网络生成的属性向量利用主成分分析(PCA)来提取人类可解释的弹性荷、质量和COR等概念。我们发现,每个属性向量的第一主分量与弹性域内的弹性荷的对数和弹性域内物体质量对数高度相关。在非弹性球领域,我们也发现,第二主成分的属性向量与COR高度相关。表1显示了在所有三个领域每个学到的属性向量的前4个主成分的解释方差比率(EVR),以及当每个组件是用来预测真实对象属性时的 R 2 R^2 R2。由于主成分分析是一种无监督的技术,这些标量可以在没有质量和COR先验概念的情况下被发现,我们可以使用某些主成分EVR的数量级差异来识别哪些成分代表有意义的性质,哪些成分仅仅捕捉噪声。

表1表1:主成分分析。将主成分分析应用于属性向量,得到与人类可解释的潜在属性(如COR和质量的对数)高度相关的主成分。我们计算每一个训练集的属性向量的前四个主成分的统计量。解释方差比EVR是主成分的解释方差作为总体方差的一小部分,而 R 2 R^2 R2是主成分和真实属性之间平方样本相关性。值小于 1 0 3 10^3 103的数字近似为0。
表2表2:数据效率和对象泛化数量。PPN用 1 0 5 10^5 105个训练数据学会了获取物理性质,当给定 2 × 1 0 5 2×10^5 2×105个实例时收敛。它的预测可以很好地推广到对象数量变化的样本外测试集。我们在一个6个对象的数据集上训练PPN,并在由6、3和9个对象组成的全新数据集上测试它。在上面,我们报告了当使用属性向量的第一个主成分来预测对数质量和第二个主成分来预测COR(对于非弹性球的情况)时的 R 2 R^2 R2。注意即使在3和9个对象的情况PPN也能提取出 R 2 R^2 R2很高的质量和恢复系数。

我们还发现,每个已学习的属性向量只包含有关其关联对象的信息,而不包含任何其他对象的信息。我们通过使用线性最小二乘法来计算每个对象的真实潜在属性和所有其他对象的属性向量之间的样本内 R 2 R^2 R2来检验这个假设。这个 R 2 R^2 R2小于5%对于这三个域和它们相关的潜在性质。

为了测试我们的感知网络的泛化特性,我们在使用感知网络(经过6对象动力学训练)和主成分分析预测不同对象数量的测试集的属性值时,计算样本外 R 2 R^2 R2,如表2所示。表2也展示出当给定不同数量的训练实例时,PPN的表现如何。在所有弹球测试集中,我们的模型训练了 1 0 6 10^6 106个数据点,对数质量的OOS R 2 R^2 R2大于90%,COR的OOS R 2 R^2 R2大于68%,弹簧域中对数弹性荷的OOS R 2 R^2 R2大于87%。(原文没说什么是OOS,可能是out-of-sample,意为样本外——译者注)

我们还将PPN与LSTM-PPN基线进行了比较。LSTM-PPN用多层LSTM替换了PPN中的感知和预测网络。与交互网络不同,LSTM不按对象对输入和输出进行因式分解。相反,每个对象的状态向量被连接起来并一起处理,并且学习所有对象的单个属性向量。表格3表明LSTM-PPN没有学习有意义的潜在特性。在每个场景中,真实对象属性和属性向量之间的样本内 R 2 R^2 R2中的线性最小二乘小于2%。我们也实验了不同的 β \beta β数值在属性向量Z的正则化项中,如在 β \beta β-VAE25]中。在学习对象属性时, β \beta β对其值不产生影响。

对于两个弹球域,物体的相对质量是通过碰撞来推断的,但并不是所有的物体都与参考对象直接碰撞。我们将物体的参考距离定义为在观察过程中将物体的质量与参考物体的质量联系起来所需要的最小碰撞次数。例如,对参考距离为3的物体的推断依赖于对两个中间物体质量的推断。图3显示了PPN预测 R 2 R^2 R2和6个目标测试集的参考距离之间的关系。虽然在推断过程中,由于复合误差的存在,参考距离增加时 R 2 R^2 R2会衰减,但PPN清楚地证明了使用及物性来推断大参考距离物体质量的能力。
图3图3:质量预测与参考距离。用于预测不同参考距离下的对数质量的两个6个物体弹球数据集的样本外 R 2 R^2 R2。PPN必须结合一系列中间质量推断来准确推断大参考距离物体的质量。
表3表3:与基准方法比较。改变正则化项 β \beta β的值并不会显著改变PPN的性能。PPN始终优于基线的LSTM。

5.2 Rollout预测

虽然PPN的主要目标是潜在物理特性的无监督学习,网络也可以用来模拟对象动力学。为了评估PPN的预测性能,我们使用平均欧几里得预测误差,或平均欧几里得范数之间的真值和预测rollout位置,对所有样本和对象求平均。我们比较PPN在两个基准方法上的表现。平均属性完美Rollout(MPPR)基准方法从开始状态输出一个完美的Rollout,但是错误地假设所有的对象质量和弹性荷都是1。对于非弹性球域,也假定所有物体的COR是0.75。真实属性(GPIN)基准方法是一种与PPN预测网络具有相同IN架构的网络。不像PPN,它直接获取真实潜在值作为输入,但它仍然只在6个目标的数据集上训练。图4列出了三种模型在不同场景下的平均欧氏预测误差,并显示了预测误差在不同rollout步骤下的变化情况。PPN的平均欧几里得预测误差明显优于MPPR基线和相当接近GPIN模型,特别是对弹性和完全弹性球数据集。

最后,图5显示了PPN的rollout轨迹的可视化。随机选择的模拟可以在http://ppn.csail.mit.edu找到。像原始的IN,PPN的推出对早期时间步长的小预测误差很敏感,但在视觉上仍具有说服力。

图4图4:平均欧几里得预测误差。上:每个测试集的所有时间步长和样本的欧氏预测误差平均值,以帧宽度的分数衡量。对于每个域,PPN和GPIN在6对象系统上进行训练,并在具有6、3和9个对象的新系统上进行测试。下:6个目标场景中每一个不同推出时间步长的欧式预测误差平均值。3-对象和9-对象场景的图形表现出类似的行为。

图5图5:Rollout轨迹。6个测试集中的每一个的rollout轨迹样本(超过24个时间步长)。每个领域的模型在6个目标样本上进行训练,并在6个、3个和9个目标样本上进行测试。

5.3 对新目标的泛化

我们的实验还探索泛化对象的属性值范围之外的训练集,我们在2对象完全弹性测试集中测试PPN框架,这里第二个球的质量从从 3 2 − 1 32^{-1} 321到32不等。质量值范围[0.25,4]是在训练集内找到的,而超出这个范围的质量值要求PPN将其对质量的理解推断为之前未接触到的值。我们在弹性域中做了一个类似的实验,其中第二个物体的弹性荷为 3 2 − 1 32^{-1} 321到32。图6绘制了两个域中第二个球的真实属性值和预测属性值之间的关系,使用第5.1节中所述的主成分分析技术进行预测。

在完全弹性球领域,尽管整体上存在低估大质量值和高估小质量值的趋势,但即使真实值远在训练范围之外,PPN仍能提供对质量的准确预测。在弹性领域,PPN对弹性荷大的对象的预测效果较好,但对弹性荷小的对象的预测效果较差。这可能是由于弹性荷低的物体总体上感觉不到多少弹簧力,在 3 2 − 1 32^{-1} 321 1 6 − 1 16^{-1} 161之间的弹性荷相较于16到32之间的弹性荷是很不值一提的。

图6图6:属性值泛化。弹性和完全弹性球域的2对象测试集中第二个对象的预测属性值与真实属性值的对比。真实属性值的范围从 3 2 − 1 32^{-1} 321到32。绿色区域 4 − 1 4^{-1} 41到4,表示在训练过程中出现在PPN中的属性值。误差条显示95%置信区间。总的来说,PPN继续对训练集之外的质量和弹性荷做出合理的预测,尽管预测的对象弹性荷比之前遇到的低

6 讨论

我们提出了PPN模型,它能够以完全无监督的方式从对象动力学样本中发现潜在的对象属性。通过实验,我们不仅证明了通过PPN学习到的物体性质的表征足以准确地模拟相同规律下的新系统的动力学;而且,通过主成分分析,这些学习到的表征可以很容易地转化为相关的、可人类解释的属性,如质量和恢复系数。

PPN证明了鲁棒性,通过推广到新的场景,几乎没有损失的准确性的动态预测或潜在性质推断。通过使用交互网络作为我们的感知和预测模块的基本构建块,我们使我们的模型能够伸缩到任意数量的对象和交互,而不需要架构的改变。特别是我们的感知网络结构,是一种简单而有效的关系和递归网络的组合,可能在其他涉及交互对象的时间序列推理任务中有用。我们还建立了PPN推断训练中看到的值范围之外的潜在属性的能力,进一步提高了它发现新系统的相关潜在属性的潜力。

一些扩展将进一步提高我们的模型对潜在对象属性的普遍发现的适用性。特别是,基于交互网络的体系结构还不能解决的一些一般性问题:任意形状刚体之间的碰撞检测、稠密流体模拟等。将交互网络扩展到基于粒子的对象表示是一个很有前途的研究方向[27]。

虽然交互网络框架通常可扩展到任意数量的对象,但由于所有对象对之间存在交互项,处理所有对象所需的计算时间将与对象数量成二次关系,这使得它不适用于非常大的系统。提高感知和预测模块的计算效率的一种方法是只考虑目标对象邻域内的对象的交互作用(大多数交互作用只在较短的长度尺度上强),类似于Chang等人[3]。一个更小的全局相互作用网仍然可以用来模拟更远距离的相互作用。

PPN提供了一种很有前途的方法来导出控制系统动力学的底层属性,除此之外,它还是一个更通用的可学习的物理引擎,能够推理潜在的未知对象的属性。其操作的完全无监督方式和许多泛化特性使其具有良好的通用性。PPN适用于多种系统的应用,甚至可以发现尚未被很好理解的领域的相关潜在特性。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值