Offline RL :Goal-Conditioned Predictive Coding for Offline Reinforcement Learning

NIPS 2023
paper
code

Intro

基于序列模型表征的两阶段离线强化学习算法。该两阶段框架,首先使用序列模型来编码轨迹级别的表示,然后学习一个以这些编码表示作为输入的条件性策略。

Method

Trajectory Representation Learning

采用encoder-decoder结构实现状态序列重构以及序列特征表示。
τ ^ , B = f ϕ ( Masked ( τ ) , g ) \hat{\tau},B=f_\phi(\text{Masked}(\tau),g) τ^,B=fϕ(Masked(τ),g)
在这里插入图片描述
其中对状态序列添加掩码(masked)来提高encoder的表征能力, 而掩码的方式是对History state随机掩码,Future state完全掩码。Goal可以是序列轨迹状态的随机采样 { s i } i = t + 1 H \{s_i\}_{i=t+1}^{H} {si}i=t+1H,也可以是平均轨迹累计奖励( i . e . g = 1 H − t + 1 ∑ i = t H r i , \mathrm{i.e.}g=\frac{1}{H-t+1}\sum_{i=t}^{H}r_{i}, i.e.g=Ht+11i=tHri,)。

Policy Learning

第二阶段便是利用encoder得到的隐变量,联合状态以及goal, 通过监督学习实现策略学习

在这里插入图片描述
轨迹表示学习和策略学习解耦,独立地优化每个阶段,提高学习的灵活性和效率。Policy采用目标条件预测编码(Goal-Conditioned Predictive Coding, GCPC)——通过学习Goal为条件的潜在表示来编码未来轨迹,对于决策制定至关重要。下面图片展示了采取GCPC有效提高算法性能。
在这里插入图片描述
在这里插入图片描述

results

在这里插入图片描述
在这里插入图片描述

Limitations

1.GCPC 通过对离线收集的轨迹执行最大似然估计来模拟未来,这可能会预测过于乐观的未来行为并导致随机环境中的次优动作。未来的工作包括通过考虑 GCPC 生成的多个对环境随机性具有鲁棒性的策略。
2. 当涉及高维状态时,GCPC可能不足以保持长期未来预测的高精度

  • 5
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值