[论文阅读] RoboCLIP: One Demonstration is Enough to Learn Robot Policies

CLIP相关:文本作为监督信号来训练可迁移的视觉模型,图像理解等神器CLIP:连接文本和图像,打造可迁移的视觉模型 - 知乎 (zhihu.com)

 Abstract & introduce

  • 奖励规范Reward specification 是强化学习中一个众所周知的难题,需要广泛的专家监督才能设计出稳健的奖励函数,模仿学习(IL)方法利用专家演示来规避这些问题,但通常需要大量的领域内专家演示
  • 受视频和语言模型(VLM)领域进展的启发,我们提出了RoboCLIP,这是一种在线模仿学习方法,它使用视频演示或任务文本描述形式的单一演示(克服了大数据需求)来生成奖励,而无需手动奖励功能设计
  • RoboCLIP还可以利用域外演示,比如人类解决任务的视频来生成奖励
  • RoboCLIP使用预训练的vlm,而不需要对奖励生成进行任何微调
  • 训练的强化学习agent在下游机器人操作任务上的zero-shot性能比竞争的模仿学习方法高2-3倍,仅使用一个视频/文本演示
  • 模仿学习算法的性能及其泛化能力取决于数据的覆盖范围和大小,收集IL演示很繁琐,需要专业的机器人操作员收集数千个演示
  • 定义奖励的更直观的方式是以文本描述的形式(例如,“机器人抓取物体”),或者以自然视频演示的形式
  • IL算法的改进:
    • 需要很少的演示
    • 允许提供这些演示的自然接口。
  • 通过利用VLM嵌入将单个指令instruction嵌入(以语言命令或视频演示的形式提供)与当前策略推出的视频嵌入之间的不匹配视为代理奖励,将引导策略走向所需指令instruction
  • RoboCLIP中使用的主干模型是在How-100M数据集上训练的S3D,为视频生成一个与actor无关的有意义的表示,使它们能够推广到看不见的机器人环境中。
  • RoboCLIP计算相似性得分以生成训练agent的轨迹级别奖励
  • 通过对RoboCLIP奖励进行预训练获得的策略执行zero-shot任务成功率高出2-3倍,这些奖励不需要专家进行规范,可以使用自然语言任务描述和人类演示等自然定义生成
  • 当状态和动作空间是高维的时,逆RL算法通常难以应用。
  • Large Vision and Language Models as Reward Functions.
    • 我们证明了视频和多模式任务规范可以用于学习允许训练agent的奖励函数
    • 我们提出了一种方法来测试预训练的VLM与部署环境的一致性

Method

Overview

  • RoboCLIP利用预训练的视频和语言模型为在线RL代理生成奖励。通过在轨迹结束向代理提供稀疏奖励来实现的,该稀疏奖励描述了代理的行为与演示的行为的相似性

Notation符号

  • 我们以POMDP(部分可观测马尔可夫决策过程)的方式来表述问题
    • 其中(\mathcal{O},\mathcal{S},\mathcal{A},\phi,\theta,r,T,\gamma)表示观测空间O、状态空间S、动作空间a、转移函数φ、发射函数θ、奖励函数r、时间范围time horizon T、折扣因子discount factor γ
    • 处于状态st的agent采取动作at,通过\phi(\mathbf{s}_{t+1}\mid\mathbf{s}_{t},\mathbf{a}_{t})在环境中引起转移,agent接收下一个状态st+1,并且使用观测ot计算奖励r_t=r(\mathbf{o}_t,\mathbf{a}_t),目标是学习一个策略π使期望的折扣奖励总和最大化如\sum_{t=0}^T\gamma^tr_t
  • 为了检验使用基于视频的奖励的效果,我们还在状态空间上操作策略,同时使用像素观测来生成奖励,因此,对于RoboCLIP,rt使用ot,而π使用st,而对于所有其他基线,rt和π都使用st
  • 我们发现,尽管基线具有优势,RoboCLIP奖励仍然会产生更高的零样本成功

Reward Generation

  • 在预训练阶段在每个episode结束时以稀疏的方式向agent提供RoboCLIP奖励
  • 将代理与环境交互的一段视频存储到缓冲区中,长度为128的观察序列被保存在缓冲器中,S3D在长度为32帧的视频上进行训练,对视频进行下采样产生长度T=32的视频,视频随后被中心裁剪,从而产生大小为(250,250)的帧
    • 观测序列的张量\mathbf{o}_{0:T}被编码为潜在视频矢量zv:\mathbf{z}^v=S3D^{\text{video-encoder}}(\mathbf{o}_{0:T})
    • 使用自然语言则语言编码器在S3D中\mathbf{d}_{0:K}将K个文本标记d0:K的序列编码到潜在空间中:\mathbf{z}^d=S3D^{\text{text-encoder}}(\mathbf{d}_{0:K})
  • 在episode结束时,将编码任务描述符zd与剧集zv的编码视频之间的相似性得分作为奖励r^\text{RoboCLlP}(t)=\begin{cases}0,&t\neq T\\\mathbf{z}^d\cdot\mathbf{z}^v&t=T\end{cases}
    • 其中zd·zv对应于向量zd和zv之间的标量积

Agent Training

使用上面定义的r^\text{RoboCLlP}(t),我们在部署环境中可以使用任何标准的强化学习(RL)算法在线训练智能体

我们使用PPO进行训练,这是一种策略强化学习算法,RoboCLIP也可以应用于非策略算法

使用此奖励进行训练之后,可以对部署环境中目标任务的真实环境奖励对agent进行零评估或微调

Experiments

我们提出以下问题:

  • 现有的预训练VLM在语义上与机器人操作环境一致吗?
  • 我们能利用自然语言生成奖励函数吗?
  • 我们可以使用专家演示的视频来生成奖励函数吗?
  • 我们可以使用域外 out-of-domain 视频来生成奖励函数吗?
  • 我们能否结合演示和自然语言来产生奖励?
  • 我们的方法的哪些方面对成功至关重要?

RoboCLIP和基线都使用PPO进行策略学习

Baselines

使用了两种逆强化学习中最先进的方法:

  • GAIL,即生成式对抗模仿学习
  • AIRL,即对抗逆强化学习

·这两种方法都试图从提供给agent的演示中学习奖励函数

Domain Alignment

  • 使用Metaworld的视频进行了混淆矩阵分析
  • 其中条目(i,j)对应于使用第j个文本描述为第i个任务生成的真实奖励和RoboCLIP奖励之间的关联
  • 通过比较描述视频的字符串的潜在向量与视频的潜在向量之间的成对相似性,发现Metaworld在对角线上的得分比在非对角线元素上的得分高,对象都被正确识别

Language for Reward Generation

图3绘制了在预训练后对部署环境进行调优时目标任务的回报

In-Domain Videos for Reward Generation

我们测量zero-shot任务奖励,随着任务对象接近目标位置,zero-shot任务奖励增加

我们发现RoboCLIP允许模仿源演示的“风格”,源演示的运动特性通常转移到生成的策略

Out-of-Domain Videos for Reward Generation

我们尝试使用人类或动画角色在不同环境中表演的演示作为任务规范

我们测试了RoboCLIP在3个相应的元世界任务-按下按钮,打开抽屉和打开门。

Multimodal Task Specification

Conclusion

研究了如何将包含在大型预训练视频和语言模型中的知识提取到在线强化学习代理中,并使用它们来产生奖励

RoboCLIP可以使用单个视频演示或任务的文本描述来训练机器人策略,这取决于域与VLM的对齐程度

vlm这种大型模型中的隐性偏差可能会渗透到RLagent中

面临着稳定微调的挑战,当对任务奖励进行微调时,PPO策略中的归一化Q值不正常,这对于解决长期任务的部署问题至关重要

我们工作的另一个局限性是无固定预训练长度。目前只能采用有限长度步骤进行预训练,在真实情况下不适用

-_-"

  • 17
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值