Imitation Learning:Imitation Learning as State Matching via Differentiable Physic

CVPR 2023
paper

Introduction

IL中尤其是IRL交替学习奖励函数以及策略计算复杂且高方差。本文提出一种将微分物理模拟器(differentiable physics simulators)作为先验结合到模仿学习的策略优化,即ILD将模仿学习看作是利用可微分物理模拟器实现状态匹配。ILD从参数化的策略中采样动作,最小化专家轨迹与智能体轨迹状态距离并通过时间物理算子将梯度反向传播到策略中,实现策略优化。
在这里插入图片描述

Method

在这里插入图片描述
不同于BC利用动作的L2损失函数优化策略,ILD则是针对轨迹状态并将它们与专家演示进行匹配。然而简单通过计算状态L2累计损失实现精确匹配是不现实的,每个状态s 的相应学习目标状态g 可能是不切实际的,因为 st 和 gt 之家的距离会远大于初始阶段,该目标超过了可微动力学可以提供的能力。

ILD提出Chamfer-α loss实现匹配问题。ILD不是选择那些遥远的正确但不切实际的目标进行匹配,而是动态地为演示的状态选择最近的局部目标,如图Fig2所示。该损失函数可以分为两部分,偏差损失(Deviation loss)和覆盖损失(Coverage loss)

偏差损失(Deviation loss)

L d = 1 ∣ τ θ ∣ ∑ s t ∈ τ θ min ⁡ g ∈ τ e x p ∥ g − s t ∥ 2 2 . L_{\mathsf d}=\frac{1}{|\tau_\theta|}\sum_{s_t\in\tau_\theta}\min_{g\in\tau_{\mathsf{exp}}}\|g-s_t\|_2^2. Ld=τθ1stτθgτexpmingst22.
对于每个状态,选择与之最近的专家目标进行匹配。这有助于约束梯度尺度,以便在 BPTT 中使用物理算子获得更稳定的优化过程。

但是单独采用偏差损失容易导致状态聚集在某一部分,导致状态崩溃。因此需要结合覆盖损失。

覆盖损失(Coverage loss)

L g = 1 ∣ τ e x p ∣ ∑ g t ∈ τ c x p min ⁡ s ∈ τ π ∥ g t − s ∥ 2 2 . L_\mathrm{g}=\frac{1}{|\tau_\mathrm{exp}|}\sum_{g_t\in\tau_\mathrm{cxp}}\min_{s\in\tau_\pi}\|g_t-s\|_2^2. Lg=τexp1gtτcxpsτπmingts22.

覆盖损失则是将专家状态尽可能与学习者的状态进行匹配,保证所有专家状态能被学习者所覆盖,缓解了状态崩溃。进一步,ILD将二者结合,并用一个超参 α \alpha α调节权重,构成最终损失函数:
L C h f − α = L d + α L g = 1 ∣ τ exp ⁡ ∣ ∑ g t ∈ τ exp ⁡ min ⁡ s ∈ τ θ ∥ g t − s ∥ 2 2 + α 1 ∣ τ θ ∣ ∑ s t ∈ τ θ min ⁡ g ∈ τ exp ⁡ ∥ g − s t ∥ 2 2 . \begin{aligned} L_{\mathrm{Chf-}\alpha}&=L_{d}+\alpha L_{g} \\ &=\frac{1}{\left|\tau_{\exp}\right|}\sum_{g_{t}\in\tau_{\exp}}\min_{s\in\tau_{\theta}}\|g_{t}-s\|_{2}^{2}+\alpha\frac{1}{\left|\tau_{\theta}\right|}\sum_{s_{t}\in\tau_{\theta}}\operatorname*{min}_{g\in\tau_{\exp}}\|g-s_{t}\|_{2}^{2}. \end{aligned} LChfα=Ld+αLg=τexp1gtτexpsτθmingts22+ατθ1stτθgτexpmingst22.

在这里插入图片描述

  • 28
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值