Abstract
强化学习中优质的奖励函数设定重要但非常困难。模仿学习通过专家演示数据一定程度避开该设定,但需要大量高质量的数据,这在现实环境中获取困难。
视频和语言模型 (VLM) 利用海量的图像-文本对数据训练,捕捉任务中视觉-语言关联,能实现zero-shot。本文启发于VLM推出 RoboCLIP,这是一种在线模仿学习方法,它以视频演示或文本描述的形式使用单个演示(克服大数据要求)。无需手动设计奖励函数即可生成奖励的任务。此外,RoboCLIP 还可以利用域外演示,例如人类解决奖励生成任务的视频,从而避免了具有相同演示和部署域的需要。RoboCLIP 利用预先训练的 VLM,无需任何微调即可生成奖励。使用 RoboCLIP 奖励训练的强化学习代理在下游机器人操作任务上表现出比竞争模仿学习方法高 2-3 倍的零样本性能,仅使用一个视频/文本演示即可实现这一点。
Method
Roboclip选取的VLM模型是已经预训练好的S3D。由于预训练S3D的数据集Howto100M为32帧,文章对序列数据下采样到T=32,并中心裁剪为(250,250)。
演示与真实交互序列分别经过VLM模型embedding后,得到两个向量,通过计算二者的相似度(Similarity作为奖励值
z
v
=
S
3
D
video-encoder
(
o
0
:
T
)
\mathbf{z}^v=S3D^{\text{video-encoder}}(\mathbf{o}_{0:T})
zv=S3Dvideo-encoder(o0:T)
z
d
=
S
3
D
text-encoder
(
d
0
:
K
)
\mathbf{z}^d=S3D^{\text{text-encoder}}(\mathbf{d}_{0:K})
zd=S3Dtext-encoder(d0:K)
r
RoboCLlP
(
t
)
=
{
0
,
t
≠
T
z
d
⋅
z
v
t
=
T
\left.r^\text{RoboCLlP}(t)=\left\{\begin{matrix}0,&t\neq T\\\mathbf{z}^d\cdot\mathbf{z}^v&t=T\end{matrix}\right.\right.
rRoboCLlP(t)={0,zd⋅zvt=Tt=T
其中T、K表示trajectory的长度。对于时间步以外的状态,设置奖励为0。最后,使用PPO算法对策略进行优化。
总结
视频文本模型囊括了丰富的领域知识,利用它判断真实交互数据与演示的相似性,可以实现少量演示高效引导智能体在线交互过程。文章也提到存在问题:1)该奖励完全依靠VLM模型,导致模型中存在的未知的隐式偏差带入到RL中。2)在某些下游任务中微调导致不稳定 3)未来还需探索不固定长度进行模型训练。