2024/2/23:VLM与模仿学习：RoboCLIP: One Demonstration is Enough to Learn Robot Policie

收到求救信号

已于 2024-02-24 11:27:31 修改

阅读量795

点赞数 13

分类专栏：强化学习模仿学习文章标签：人工智能

于 2024-02-24 11:25:50 首次发布

本文链接：https://blog.csdn.net/wdnmdwsmsa/article/details/136264249

版权

强化学习同时被 2 个专栏收录

89 篇文章 1 订阅

订阅专栏

模仿学习

12 篇文章 1 订阅

订阅专栏

本文介绍了一种新的在线模仿学习方法RoboCLIP，它利用预训练的视频和语言模型(S3D)生成奖励，无需大量数据和手动设计奖励函数。实验证明，RoboCLIP在机器人操作任务中表现出色，尤其在零样本条件下优于其他模仿学习方法。然而，文章也指出存在隐式偏差和微调稳定性等问题，未来研究需关注模型长度的灵活性。

摘要由CSDN通过智能技术生成

Abstract

强化学习中优质的奖励函数设定重要但非常困难。模仿学习通过专家演示数据一定程度避开该设定，但需要大量高质量的数据，这在现实环境中获取困难。

视频和语言模型 (VLM) 利用海量的图像-文本对数据训练，捕捉任务中视觉-语言关联，能实现zero-shot。本文启发于VLM推出 RoboCLIP，这是一种在线模仿学习方法，它以视频演示或文本描述的形式使用单个演示（克服大数据要求）。无需手动设计奖励函数即可生成奖励的任务。此外，RoboCLIP 还可以利用域外演示，例如人类解决奖励生成任务的视频，从而避免了具有相同演示和部署域的需要。RoboCLIP 利用预先训练的 VLM，无需任何微调即可生成奖励。使用 RoboCLIP 奖励训练的强化学习代理在下游机器人操作任务上表现出比竞争模仿学习方法高 2-3 倍的零样本性能，仅使用一个视频/文本演示即可实现这一点。

NIPS2023

Method

在这里插入图片描述
Roboclip选取的VLM模型是已经预训练好的S3D。由于预训练S3D的数据集Howto100M为32帧，文章对序列数据下采样到T=32，并中心裁剪为(250,250)。
演示与真实交互序列分别经过VLM模型embedding后，得到两个向量，通过计算二者的相似度(Similarity作为奖励值
$\mathbf{z}^v=S3D^{\text{video-encoder}}(\mathbf{o}_{0:T})$
$\mathbf{z}^d=S3D^{\text{text-encoder}}(\mathbf{d}_{0:K})$
$\left.r^\text{RoboCLlP}(t)=\left\{\begin{matrix}0,&t\neq T\\\mathbf{z}^d\cdot\mathbf{z}^v&t=T\end{matrix}\right.\right.$