2024/2/23:VLM与模仿学习:RoboCLIP: One Demonstration is Enough to Learn Robot Policie

本文介绍了一种新的在线模仿学习方法RoboCLIP,它利用预训练的视频和语言模型(S3D)生成奖励,无需大量数据和手动设计奖励函数。实验证明,RoboCLIP在机器人操作任务中表现出色,尤其在零样本条件下优于其他模仿学习方法。然而,文章也指出存在隐式偏差和微调稳定性等问题,未来研究需关注模型长度的灵活性。
摘要由CSDN通过智能技术生成

Abstract

强化学习中优质的奖励函数设定重要但非常困难。模仿学习通过专家演示数据一定程度避开该设定,但需要大量高质量的数据,这在现实环境中获取困难。

视频和语言模型 (VLM) 利用海量的图像-文本对数据训练,捕捉任务中视觉-语言关联,能实现zero-shot。本文启发于VLM推出 RoboCLIP,这是一种在线模仿学习方法,它以视频演示或文本描述的形式使用单个演示(克服大数据要求)。无需手动设计奖励函数即可生成奖励的任务。此外,RoboCLIP 还可以利用域外演示,例如人类解决奖励生成任务的视频,从而避免了具有相同演示和部署域的需要。RoboCLIP 利用预先训练的 VLM,无需任何微调即可生成奖励。使用 RoboCLIP 奖励训练的强化学习代理在下游机器人操作任务上表现出比竞争模仿学习方法高 2-3 倍的零样本性能,仅使用一个视频/文本演示即可实现这一点。

NIPS2023

Method

在这里插入图片描述
Roboclip选取的VLM模型是已经预训练好的S3D。由于预训练S3D的数据集Howto100M为32帧,文章对序列数据下采样到T=32,并中心裁剪为(250,250)。
演示与真实交互序列分别经过VLM模型embedding后,得到两个向量,通过计算二者的相似度(Similarity作为奖励值
z v = S 3 D video-encoder ( o 0 : T ) \mathbf{z}^v=S3D^{\text{video-encoder}}(\mathbf{o}_{0:T}) zv=S3Dvideo-encoder(o0:T)
z d = S 3 D text-encoder ( d 0 : K ) \mathbf{z}^d=S3D^{\text{text-encoder}}(\mathbf{d}_{0:K}) zd=S3Dtext-encoder(d0:K)
r RoboCLlP ( t ) = { 0 , t ≠ T z d ⋅ z v t = T \left.r^\text{RoboCLlP}(t)=\left\{\begin{matrix}0,&t\neq T\\\mathbf{z}^d\cdot\mathbf{z}^v&t=T\end{matrix}\right.\right. rRoboCLlP(t)={0,zdzvt=Tt=T

其中T、K表示trajectory的长度。对于时间步以外的状态,设置奖励为0。最后,使用PPO算法对策略进行优化。

总结

视频文本模型囊括了丰富的领域知识,利用它判断真实交互数据与演示的相似性,可以实现少量演示高效引导智能体在线交互过程。文章也提到存在问题:1)该奖励完全依靠VLM模型,导致模型中存在的未知的隐式偏差带入到RL中。2)在某些下游任务中微调导致不稳定 3)未来还需探索不固定长度进行模型训练。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值