【ICML2023】面向决策Transformer的未来条件无监督预训练

70a47162b6d45ff8d6a82fb53a456ebf.png

来源:专知
本文为论文介绍,建议阅读5分钟
我们提出了预训练决策变换器(PDT),这是一种在概念上简单的无监督RL预训练方法。

近期在离线强化学习(RL)的研究中,我们发现基于回报的监督学习是解决决策问题的强大范式。然而,尽管有前景,但基于回报的方法仅限于使用标注有奖励的训练数据,因此在从无监督数据中学习时面临挑战。在这项工作中,我们旨在利用泛化的未来条件,以实现从无奖励和次优离线数据中进行有效的无监督预训练。我们提出了预训练决策变换器(PDT),这是一种在概念上简单的无监督RL预训练方法。PDT利用未来轨迹信息作为特权上下文在训练期间预测动作。能够根据当前和未来因素做出决策,增强了PDT的泛化能力。此外,这个特性可以很容易地融入到基于回报的框架中进行在线微调,通过为可能的未来分配回报值并根据各自的值采样未来嵌入。从实证上看,PDT的表现优于或与其监督预训练的对手相当,特别是在处理次优数据时。进一步分析表明,PDT能够从离线数据中提取出多样的行为,并通过在线微调可控地采样高回报行为。代码可在此处获取。

https://arxiv.org/abs/2305.16683

0acd5a5e812dcadc48a0cef7ed4434f2.png

246e4938fc16bf5a7935401addc5bae0.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值