【ICML2023】面向决策Transformer的未来条件无监督预训练

最新推荐文章于 2024-04-23 16:10:52 发布

数据派THU

最新推荐文章于 2024-04-23 16:10:52 发布

阅读量227

点赞数

文章标签： transformer 人工智能深度学习机器学习

原文链接：https://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247605397&idx=4&sn=32abd55d801f71a92570d3a9c91a83bf&chksm=e9e0551ede97dc086e7679120a794236319e22e15067fdb4725928e40fe95a8631eb70d58e11&scene=126&sessionid=0

版权

来源：专知
本文为论文介绍，建议阅读5分钟
我们提出了预训练决策变换器（PDT），这是一种在概念上简单的无监督RL预训练方法。

近期在离线强化学习（RL）的研究中，我们发现基于回报的监督学习是解决决策问题的强大范式。然而，尽管有前景，但基于回报的方法仅限于使用标注有奖励的训练数据，因此在从无监督数据中学习时面临挑战。在这项工作中，我们旨在利用泛化的未来条件，以实现从无奖励和次优离线数据中进行有效的无监督预训练。我们提出了预训练决策变换器（PDT），这是一种在概念上简单的无监督RL预训练方法。PDT利用未来轨迹信息作为特权上下文在训练期间预测动作。能够根据当前和未来因素做出决策，增强了PDT的泛化能力。此外，这个特性可以很容易地融入到基于回报的框架中进行在线微调，通过为可能的未来分配回报值并根据各自的值采样未来嵌入。从实证上看，PDT的表现优于或与其监督预训练的对手相当，特别是在处理次优数据时。进一步分析表明，PDT能够从离线数据中提取出多样的行为，并通过在线微调可控地采样高回报行为。代码可在此处获取。

https://arxiv.org/abs/2305.16683

数据派THU

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【ICML2023】面向决策Transformer的未来条件无监督预训练

来源：专知本文为论文介绍，建议阅读5分钟我们提出了预训练决策变换器（PDT），这是一种在概念上简单的无监督RL预训练方法。近期在离线强化学习（RL）的研究中，我们发现基于回报的监督学习是解决决策问题的强大范式。然而，尽管有前景，但基于回报的方法仅限于使用标注有奖励的训练数据，因此在从无监督数据中学习时面临挑战。在这项工作中，我们旨在利用泛化的未来条件，以实现从无奖励和次优离线数据中进行有效的无...
复制链接

扫一扫