论文阅读笔记——OPAL: Encoding Causal Understanding of Physical Systems for Robot Learning

OPAL 论文

在注意力机制中引入拓扑规则下的物理约束,从而确保机器人生成的动作序列不仅符合任务需求,还满足物理环境的实际要求。

GATO 和 RT-2-X 通过隐式学习机械约束,ManipLLM 和 ROSIE 虽引入物理一致性损失,但缺乏形式化保证
OPAL通过拓扑约束和物理一致性建模,解决了传统方法在长时程规划、计算效率和物理可行性上的不足,并在复杂任务中实现了更高的性能和泛化能力。其创新点在于将拓扑场理论与流匹配结合,为此进一步引入拓扑注意力机制——将动作序列建模为非平凡约束的拓扑结构化表示。
在这里插入图片描述

背景

在凝聚态物理中,拓扑量子场论(TQFTs)为描述特定变换下全局性质保持不变的体系提供了数学框架。其中Levin-Wen模型作为弦网(string-net)形式体系,通过局部融合规则编码拓扑约束。
在非平凡拓扑特性系统中,局部自由度受限于某些约束条件,从而产生全局拓扑不变量。
拓扑注意力通过掩码机制 M t o p o M_{topo} Mtopo 融入显式物理特性,当经典多头注意力允许任意token相互关注时,拓扑注意力会将物理不可行的转移(如未抓取物体前就执行举起动作)的注意力权重归零。
理论基础建立在晶格边缘弦构型的数学描述上,其受局部融合规则支配。这些规则严格规定了哪些构型能在顶点交汇,类比于物理世界中动作间的合法时序关系。融合规则由张量Fᵢⱼᵏ量化表示,其必须满足五边形和六边形方程等数学一致性条件: ∑ n F n i j k F l i n m = ∑ p F p j k m F l i j p F l i k m \sum_nF_n^{ijk}F_l^{inm}=\sum_pF_p^{jkm}F_l^{ijp}F_l^{ikm} nFnijkFlinm=pFpjkmFlijpFlikm

OPAL

在这里插入图片描述
相比数据驱动方法具有四大优势:通过受限信息流强制物理一致性、约束动作空间提升样本效率、基于普适物理定律实现跨任务泛化、通过Mₜₒₚ₀结构提供可解释性。在装配任务实验中,该机制将物理违规率降低至传统方法的1/8,同时使训练效率提升3.2倍。

  • 动作token ↔ 拓扑形式体系中的弦类型
  • 物理前提条件 ↔ 融合规则
  • 物体完整性等不变属性 ↔ 拓扑荷
  • 物理一致性条件 ↔ 拓扑理论的五边形/六边形方程
    A t t ( Q , K , V ) = s o f t m a x ( Q K T d ⋅ M t o p o ) V M t o p o ( i , j ) = ∑ k F k i j ⋅ δ ( C ( i , j , k ) ) \begin{aligned}\mathrm{Att}(Q,K,V)=\mathrm{softmax}\left(\frac{QK^T}{\sqrt{d}}\cdot M_{\mathrm{topo}}\right)V \\M_\mathrm{topo}{(i,j)}=\sum_kF_k^{ij}\cdot\delta(C(i,j,k)) \end{aligned} Att(Q,K,V)=softmax(d QKTMtopo)VMtopo(i,j)=kFkijδ(C(i,j,k))
    其中 F k i j F_k^{ij} Fkij 表示动作标记之间的融合稀疏,而 C ( i , j , k ) C(i,j,k) C(i,j,k) 强制一致性条件。

通过三层融合规则保障物理一致性

  • 局部融合规则(物理约束):管理运动基元内相邻动作 token 的交互,确保基础物理约束(如夹爪必须在抓取前张开): ∑ c N c a b = 1 ∀ a , b ∈ P t k \sum_cN_c^{ab} =1\quad\forall a,b \in P_t^k cNcab=1a,bPtk 其中 N c a b N_c^{ab} Ncab 是确定动作 a 和 b 是否可以被动作 c 跟随的融合张量。
  • 非局域融合通道(五边形方程和六边形方程):通过拓扑保护实现长程依赖,确保不直接交互的动作段仍保持物理协调: I n v ( P t i ⊗ P t j ) = I n v ( P t i ) ⋅ I n v ( P t j ) ⋅ Ω ( i , j ) \mathrm{Inv}(P_t^i\otimes P_t^j)=\mathrm{Inv}(P_t^i)\cdot\mathrm{Inv}(P_t^j)\cdot\Omega(i,j) Inv(PtiPtj)=Inv(Pti)Inv(Ptj)Ω(i,j) 其中耦合项满足辫群关系 Ω ( i , j ) ⋅ Ω ( j , k ) ⋅ Ω ( i , j ) = Ω ( j , k ) ⋅ Ω ( i , j ) ⋅ Ω ( j , k ) \Omega(i,j)\cdot\Omega(j,k)\cdot\Omega(i,j)=\Omega(j,k)\cdot\Omega(i,j)\cdot\Omega(j,k) Ω(i,j)Ω(j,k)Ω(i,j)=Ω(j,k)Ω(i,j)Ω(j,k)
  • 不变子空间投影(时间约束):通过投影算子 ∏ a = ∑ α ∣ ϕ a α > < ϕ a α ∣ \prod_a=\sum_\alpha|\phi_a^\alpha><\phi_a^\alpha| a=αϕaα><ϕaα 保持动作序列的全局属性,其幂等性 ∏ a 2 = ∏ a \prod_a^2=\prod_a a2=a 和正交性 ∏ a ∏ b = 0 \prod_a\prod_b=0 ab=0 从数学上杜绝违反物理定律的状态转移。

M t o p o ← Π T ( M t o p o + η ∇ M L ) M_{\mathrm{topo}}\leftarrow\Pi_{\mathcal{T}}(M_{\mathrm{topo}}+\eta\nabla_ML) MtopoΠT(Mtopo+ηML) ∏ T \prod_T T 是一个投影算子,它强制执行五边形方程和六边形方程,确保掩码在训练过程中始终保留其拓扑属性,在每次梯度更新后,将更新后的注意力权重重新投影到有效拓扑掩码的流形,以保持融合规则的一致性。(实际上是检验 M t o p o M_{topo} Mtopo 是否还满足之前定义的规则)
L τ ( θ ) = E p ( A t ∣ o t ) , q ( A t τ ∣ A t ) ∥ v θ ( A t τ , o t ) − u ( A t τ ∣ A t ) ∥ T 2 ∣ ∣ v ∣ ∣ T 2 = v T M t o p o v \begin{aligned}L_\tau(\theta)=\mathbb{E}_{p(A_t|o_t),q(A_t^\tau|A_t)}\|v_\theta(A_t^\tau,o_t)-u(A_t^\tau|A_t)\|_T^2 \\||v||^2_T=v^TM_{topo}v \end{aligned} Lτ(θ)=Ep(Atot),q(AtτAt)vθ(Atτ,ot)u(AtτAt)T2∣∣vT2=vTMtopov

在流匹配中,前向欧拉方法是一阶数值积分方法,为了获得较高精度,通常采用较小步长,导致计算量增加;在某些情况下,会因为步长过大导致数值不稳定,结果发散。
在实际应用中,与 10 步的欧拉方法相比,采用了四阶 Runge-Kutta 方法(通过计算多个中间点的导数值,并对这些导数值进行加权平均,从而更准确地估计下一步的状态),采取更少、更大的步长(每个动作序列仅需四个积分子步),同时仍然保持细粒度的轨迹质量,这种方法将推理时间减少了超过 40%,同时没有牺牲精确机器人控制所需的精度并且减少了误差累积。(精度高、步数少)
A t τ + δ = A t τ + δ 6 ( k 1 + 2 k 2 + 2 k 3 + k 4 ) w h e r e : k 1 = v θ ( A t τ , o t ) k 2 = v θ ( A t τ + δ 2 k 1 , o t ) k 3 = v θ ( A t τ + δ 2 k 2 , o t ) k 4 = v θ ( A t τ + δ k 3 , o t ) \begin{aligned} A_{t}^{\tau+\delta}=&A_t^\tau+\frac{\delta}{6}(k_1+2k_2+2k_3+k_4) \\ \mathrm{where:} \quad &k_{1}=v_\theta(A_t^\tau,o_t) \\ &k_{2}=v_\theta(A_t^\tau+\frac{\delta}{2}k_1,o_t) \\ &k_{3}=v_\theta(A_t^\tau+\frac{\delta}{2}k_2,o_t) \\ &k_{4}=v_\theta(A_t^\tau+\delta k_3,o_t) \end{aligned} Atτ+δ=where:Atτ+6δ(k1+2k2+2k3+k4)k1=vθ(Atτ,ot)k2=vθ(Atτ+2δk1,ot)k3=vθ(Atτ+2δk2,ot)k4=vθ(Atτ+δk3,ot)
其中 A t τ A_t^\tau Atτ 是当前状态, δ \delta δ 是步长。欧拉方法是每次计算 1 次导数值,共 10 次(10步);四阶 Runge-Kutta,每次计算 4 次导数值,总共 16 次(4 步)。
L ( θ ) = L f l o w ( θ ) + λ 1 L t a s k ( θ ) + λ 2 L s m o o t h ( θ ) + λ 3 L t o p o ( θ ) L t o p o ( θ ) = E p ( A t ∣ o t ) , q ( A t τ ∣ A t ) ∥ F ( v θ ( A t τ , o t ) ) − F ( u ( A t τ ∣ A t ) ) ∥ 2 \begin{aligned} &L(\theta)=L_{\mathbf{flow}}(\theta)+\lambda_1L_{\mathbf{task}}(\theta)+\lambda_2L_{\mathbf{smooth}}(\theta)+\lambda_3L_{\mathbf{topo}}(\theta)\\ & L_{\mathbf{topo}}(\theta) =\mathbb{E}_{p(A_t|o_t),q(A_t^\tau|A_t)}\left\|\mathcal{F}(v_\theta(A_t^\tau,o_t))-\mathcal{F}(u(A_t^\tau|A_t))\right\|^2 \end{aligned} L(θ)=Lflow(θ)+λ1Ltask(θ)+λ2Lsmooth(θ)+λ3Ltopo(θ)Ltopo(θ)=Ep(Atot),q(AtτAt)F(vθ(Atτ,ot))F(u(AtτAt))2

伪代码如下:
在这里插入图片描述
在这里插入图片描述

实验结果

在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值