Pretrain: Learning to Act without Actions Learning to Act without Actions

ICLR 2024 Spotlight
paper

Intro

利用海量网络视频数据对模型预训练是提升算法效率的有效方法。然而此类数据缺乏offline下的任务动作标签,因此应用于RL困难。本文提出LAPO则是从只包含观测的演示中推断潜在动作在以及隐空间策略表现形式,为在线RL以及离线RL提供预训练的策略。

Method

Latent action representation

LAPO预训练阶段包含两个模型:逆动力学模型 P I D M ( z t ∣ o t , o t + 1 ) P_{IDM}(z_t|o_t,o_{t+1}) PIDM(ztot,ot+1)和前向动力学模型 P F D M ( o t + 1 ∣ o t , z t ) P_{FDM}(o_{t+1}|o_t,z_{t}) PFDM(ot+1ot,zt),
在这里插入图片描述
而在实际使用中,LAPO采样一个k-steps sequence的历史数据以及下一时刻的观测预测latent action z t z_t zt
z t ∼ p I D M ( ⋅ ∣ o t − k , … , o t , o t + 1 ) z_{t}\sim p_{\mathrm{IDM}}(\cdot|o_{t-k},\ldots,o_{t},o_{t+1}) ztpIDM(otk,,ot,ot+1)
FDM将继续使用历史数据以及预测的动作来预测下一时刻的观测
o ^ t + 1 ∼ p F D M ( ⋅ ∣ o t − k , … , o t , z t ) \hat{o}_{t+1}\sim p_{\mathrm{FDM}}(\cdot|o_{t-k},\ldots,o_{t},z_{t}) o^t+1pFDM(otk,,ot,zt)
然后通过一个BC损失函数联合优化两个模型: ∣ ∣ o ^ t + 1 − o t + 1 ∣ ∣ 2 ||\hat{o}_{t+1}-o_{t+1}||^{2} ∣∣o^t+1ot+12
为了防止IDM直接将 o t + 1 o_{t+1} ot+1copy到 z z z,然后FDM直接预测 o ^ t + 1 = o t + 1 \hat{o}_{t+1}=o_{t+1} o^t+1=ot+1。LAPO对z设置信息瓶颈,强制压缩IDM到FDM的信息量,防止IDM与FDM共有的( o t − k , … , o t o_{t-k},\ldots,o_{t} otk,,ot)包含的信息被忽略。同时,由于IDM和FDM都获得历史观测,学习到的潜在行为可能成为这些观察的条件。在不同的状态下,一些潜在的动作z可能对应于不同的真实动作。

因此,在将每个潜在动作传递给FDM之前,采取矢量量化(Vector Quantization,VQ)(EMA-based update),从而迫使IDM在不同状态空间重复使用有限数量的离散latent,实现解耦特征表示。

BC a latent policy

在相同数据集,利用BC方法学习latent policy π : O → Z \pi:\mathcal{O}\to\mathcal{Z} π:OZ
∣ ∣ π ( o t ) − z t ∣ ∣ 2 w h e r e z t ∼ p I D M ( ⋅ ∣ o t − k , … , o t , o t + 1 ) ||\pi(o_{t})-z_{t}||^{2}\mathrm{where}z_{t}\sim p_{\mathrm{IDM}}(\cdot|o_{t-k},\ldots,o_{t},o_{t+1}) ∣∣π(ot)zt2whereztpIDM(otk,,ot,ot+1)

Decoding latent action

latent policy 将观测值映射到隐空间,而对 RL,则需要从隐空间decoding得到具体的action与环境交互。对于在线RL只需将latent policy head替换为智能体策略的head。而对于离线RL,已知action-label,只需要单独训练一个decoder d  ⁣ : Z → A d\colon\mathcal{Z}\to\mathcal{A} d:ZA

Limitations

  1. 在观测中具有延迟效应的行动将同样被预测延迟发生,即潜在政策实际上模拟了一个行动的可见效应,而不是行动本身。然而,在大多数环境中,对环境状态有任何影响的行为将会引起观测变量的某种程度的即时变化。
  2. 此外,可以通过扩展IDM和FDM体系结构来考虑过去和未来的多个时间步长来部分解决延迟操作,例如通过使用Transformer结构。
  3. 显著的随机性会使IDM难以压缩噪声中的有用的信息,从而降低latent action质量。可以通过在更大的数据集上进行训练来缓解。
  4. 在更大的数据集上进行训练,将需要扩大模型架构,这在平衡FDM的强度和latent action表征能力方面带来了新的挑战
  • 20
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值