发论文idea来了!强化学习+Transformer,29个创新点汇总

基于Transformer的强化学习(TRL)是一种利用Transformer模型架构来改进和增强强化学习算法性能的方法。

这种方法通过结合Transformer模型强大的表示能力和强化学习的决策优化框架,显著提升了智能体的学习能力和适应能力,为我们解决复杂环境下的决策问题提供了新的思路,因此也被广泛应用于各大领域。

目前,TRL主要有两大发展方向:架构增强、轨迹优化。

  • 架构增强:通过改进Transformer的架构来提高强化学习模型的性能。

  • 轨迹优化:使用Transformer来优化强化学习中的轨迹数据,以更好地建模人类偏好和非Markovian奖励。

今天我从这两大方向入手,分享29篇TRL的代表性成果,为方便同学们理解,这其中还包含了TRL在自动驾驶等主要领域的热门应用,希望对大家找idea有所帮助。

论文原文以及开源代码需要的同学看文末

1.架构增强

将Transformer结构融入强化学习框架,以提升对状态、动作和历史信息的建模能力,从而精确地表示智能体与环境间的复杂关系。

代表性论文:

Coberl: Contrastive bert for reinforcement learning

方法:COBERL是一种结合了对比学习与架构改进的新型强化学习代理,通过自监督学习目标和LSTM与transformer的组合,提高了数据效率并在各种环境中取得了改进的性能。

<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值