【NeurIPS2024】强化学习梯度作为在线微调决策变换器的维生素

02a95c3b9934419c05f2dff93f109d20.png

来源:专知
本文约1000字,建议阅读5分钟
决策变换器(Decision Transformers)最近作为离线强化学习(RL)的一种新颖且引人注目的范式出现,通过自回归的方式完成轨迹。

bbba5e4d7622dc6d4f86281611f6dc5f.png

决策变换器(Decision Transformers)最近作为离线强化学习(RL)的一种新颖且引人注目的范式出现,通过自回归的方式完成轨迹。尽管已有改进以克服最初的缺点,决策变换器的在线微调却仍然鲜有深入探索。广泛采用的最先进的在线决策变换器(ODT)在使用低奖励离线数据进行预训练时仍然面临困难。本文理论上分析了决策变换器的在线微调,显示常用的远离期望回报的“回报至终”(Return-To-Go, RTG)会妨碍在线微调过程。然而,这一问题在标准强化学习算法中通过值函数和优势函数得到了很好的解决。根据我们的分析,在实验中,我们发现简单地将TD3梯度添加到ODT的微调过程中,能够有效提高ODT的在线微调性能,特别是在ODT使用低奖励离线数据预训练的情况下。这些发现为进一步改进决策变换器提供了新的方向。

5e700d0c62d1e8b4a42dbebd482bc0d3.png

关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。

90e7417c6ad217181c7fa509f0a16250.png

新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值