【论文阅读】Don‘t Start from Scratch: Behavioral Refinement via Interpolant-based Policy Diffusion

不要从零开始:通过基于插值的策略扩散进行行为改进

Abstract

模仿学习使人工agents能够通过从演示中学习来模仿行为。近年来,具有高维和多模态分布建模能力的扩散模型在模仿学习任务中表现出了令人印象深刻的表现。这些模型通过从标准高斯噪声中扩散动作(或状态)来学习塑造policy。然而,要学习的目标policy通常与高斯模型有很大的不同,当使用少量的扩散步骤(以提高推理速度)和在有限的数据下,这种不匹配会导致性能不佳。这项工作的关键思想是,从一个比高斯更丰富的信息源开始,使扩散方法能够减轻上述限制。我们提供了理论结果、一种新方法和实证研究结果,表明使用信息源policy informative source policy 的好处。我们的方法,我们称之为bridger,利用随机插值框架来桥接任意policies,从而实现灵活的模仿学习方法。它推广了先前的工作,即仍然可以应用标准高斯函数,但如果可用,可以使用其他源policies。在具有挑战性的模拟基准和真实机器人的实验中,bridger优于最先进的扩散policies。我们在应用bridger时提供了进一步的设计考虑分析。

Code for BRIDGER is available at https://github.com/clear-nus/bridger.

I. INTRODUCTION

 模仿学习使机器人能够从演示中学习policies,并已应用于各种领域,包括操纵[34,58,13],自动驾驶[33,5]和共享自治[39,56]。最近,人们对模仿学习中扩散模型的适应性产生了浓厚的兴趣[7,37,18]。这些深度生成模型通过多个扩散步骤逐步将高斯噪声转换为policy,与经典技术相比具有实际优势[41,42]-它们可以很好地扩展动作/状态空间中的维度数(例如,用于7自由度机械臂上的视觉运动学习[7]),并且能够捕获复杂的多模态分布。然而,目前的扩散方法也需要大量的训练数据集,并且由于需要大量的扩散步骤才能获得复杂任务的有效动作分布,因此通常需要很长的推理时间[37]。

对现有扩散式模仿学习的研究揭示了一个基本问题:这些模型从标准高斯噪声开始学习塑造policy,这通常与预期的policy或动作分布截然不同。我们工作中的关键见解是,从高斯噪声开始并不是先决条件。为了探索这一点,我们超越了传统的扩散框架,采用随机插值[2]在有限时间内桥接任意密度(图1)。这种方法允许我们利用随机源policies,使扩散过程从一个更有信息的起点开始。示例源policies包括使用任务的先验知识手工制作的policies或在类似任务上训练的数据驱动的policies。我们发现这种转变保留了扩散式模仿学习的固有优势,但对推理时间和性能产生了积极影响。实际上,这将导致更快的生成和更准确的机器人动作。我们的方法还推广了先前在基于扩散的模仿学习中的工作,因为如果没有可用的源policy,则可以使用高斯分布等简单分布。

图1:(a)使用bridge生成动作的概述。使用训练好的速度b和分数s函数,bridger通过前向sde将动作从源分布π0(a|x)传递到目标分布π1(a|x)(公式9)。(b)我们在具有挑战性的机器人基准任务上对bridger进行了测试,结果表明使用信息源policies可以提高性能。例如,在6-dof抓取生成中,使用启发式或数据驱动的源policies与传统的高斯相比,可以获得更成功的抓取。

 本文首先从理论上分析了不同源policies对扩散的影响。简而言之,我们发现在合理的假设下,选择更好的源policy会得到更好的目标policies。然后,我们转向将源policies纳入扩散方法的实用方法。将随机插值框架[2]应用于模仿学习,我们得出了一种名为bridger(基于插值的行为细化扩散用于生成机器人)的新方法。据我们所知,我们的工作是首次将这种桥接方法应用于模仿学习,与之前在简单合成任务[60]和图像生成[60,25]中的使用形成对比。除了学习到的正演模型的标准神经结构设计外,随机插值框架还依赖于几个关键的设计选择,包括源policy和插值器。内插指示采样点如何从源分布过渡到目标分布,过渡由通过时变高斯潜变量引入的噪声调制[2]。直观上,内插在两个policies之间形成了一个“桥梁”或“向导”(例如,它逐渐将机器人的不良动作转变为较好的动作)。

我们对使用源policies(和其他设计元素)对各种机器人任务的影响进行了系统的实证研究,包括franka厨房基准测试、抓取生成和使用机器人手操作。总的来说,实验结果与我们的理论发现相吻合;高斯分布很少是最有效的源分布,令人惊讶的是,即使是简单的启发式分布也会产生比高斯分布更好的学习policies。我们证明,给定一个好的源policy, bridger优于现有的最先进的扩散policies。此外,我们还讨论了插值函数在学习高度多模态行为时的影响。在使用两个机器人进行的真实实验中也观察到了类似的积极结果:一个是带有两根手指的弗兰卡·艾米卡熊猫手臂,用于稳定抓取,另一个是配备了shadow dexterous hand lite的ur5e,用于合成伤口清洁。这些任务涉及现实世界的高维观察(例如,点云和图像)和复杂的动作(伤口清洁任务的每个时间步有22个动作维度)。总之,我们的工作将分布桥接与模仿学习联系起来,从而提高了性能并解决了标准扩散的固有限制,例如冗长的推理时间。我们的贡献:

  • 不同质量源policies扩散影响的理论结果
  •  一种实用的方法,使源policies能够用于基于扩散的模仿学习,从而更好地权衡推理速度和性能;
  • 一项全面的实证研究,证明了源分布和插值设计对各种机器人任务的结果质量的影响。

从更广泛的角度来看,我们的研究证明了桥接模型在模仿学习中的潜力。我们希望这项工作为未来的模仿学习方法奠定基础,利用过去的policies进行终身机器人学习。

II. PRELIMINARIES: BACKGROUND & RELATED WORK

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值