发论文idea来了！强化学习+Transformer，29个创新点汇总

最新推荐文章于 2025-01-31 12:15:14 发布

深度之眼

最新推荐文章于 2025-01-31 12:15:14 发布

阅读量3.5k

点赞数 15

分类专栏：人工智能干货深度学习干货文章标签：深度学习机器学习人工智能

本文链接：https://blog.csdn.net/weixin_42645636/article/details/139810162

版权

基于Transformer的强化学习（TRL）是一种利用Transformer模型架构来改进和增强强化学习算法性能的方法。

这种方法通过结合Transformer模型强大的表示能力和强化学习的决策优化框架，显著提升了智能体的学习能力和适应能力，为我们解决复杂环境下的决策问题提供了新的思路，因此也被广泛应用于各大领域。

目前，TRL主要有两大发展方向：架构增强、轨迹优化。

架构增强：通过改进Transformer的架构来提高强化学习模型的性能。
轨迹优化：使用Transformer来优化强化学习中的轨迹数据，以更好地建模人类偏好和非Markovian奖励。

今天我从这两大方向入手，分享29篇TRL的代表性成果，为方便同学们理解，这其中还包含了TRL在自动驾驶等主要领域的热门应用，希望对大家找idea有所帮助。

论文原文以及开源代码需要的同学看文末

1.架构增强

将Transformer结构融入强化学习框架，以提升对状态、动作和历史信息的建模能力，从而精确地表示智能体与环境间的复杂关系。

代表性论文：

Coberl: Contrastive bert for reinforcement learning

方法：COBERL是一种结合了对比学习与架构改进的新型强化学习代理，通过自监督学习目标和LSTM与transformer的组合，提高了数据效率并在各种环境中取得了改进的性能。

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

深度之眼

关注关注

15
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

综合LSTM、transformer优势，DeepMind强化学习智能体提高数据效率

迈微AI研习社 · 号主

09-14

1726

来自 DeepMind 的研究者提出了用于强化学习的 CoBERL 智能体，它结合了新的对比损失以及混合 LSTM-transformer 架构，可以提高处理数据效率。实验表明，CoBERL 在整个 Atari 套件、一组控制任务和具有挑战性的 3D 环境中可以不断提高性能。

【图像去噪】耗时999999个小时！一次看个够！专栏内100个去噪算法大合集，理论速览，核心精炼！内含每篇文章的参考文献Bib格式，论文写作必备！随取随用！（持续更新中）

03-17

1777

图像去噪论文大合集，化繁为简，精炼论文，蹲坑食用，效果更佳，速记速查，论文不麻

参与评论您还未登录，请先登录后发表或查看评论

Transformers-RL: 探索强化学习与Transformer的深度融合

gitblog_00089的博客

06-11

668

Transformers-RL: 探索强化学习与Transformer的深度融合项目地址:https://gitcode.com/gh_mirrors/tr/Transformers-RL 项目介绍 Transformers-RL 是一个基于PyTorch的开源项目，它旨在简化Transformer模型在强化学习（Reinforcement Learning, RL）中的应用。该项目由一位对Tr...

强化学习嵌入Transformer（代码实践）

qq_45889056的博客

03-01

1362

在强化学习任务中，特别是在策略梯度方法中，通常不需要一个完整的Transformer模型，包括Encoder和Decoder。因此，我们可以只使用Transformer的Encoder部分，将状态作为输入，经过编码后得到一个表示状态的向量，然后将这个向量传递给策略网络（或者Critic网络）来进行动作选择或值函数估计。使用Transformer的Encoder部分可以有效地处理状态的变长输入，并且具有对序列建模的能力，这在处理许多强化学习任务中是非常有用的。注意：代码能跑，但是不能正常学习到策略！

TRL - Transformer 强化学习

发呆的比目鱼的博客

11-08

1469

TRL - Transformer 强化学习

探索强化学习新境界：Transformers-RL库解析与推荐

gitblog_00331的博客

09-03

413

探索强化学习新境界：Transformers-RL库解析与推荐项目地址:https://gitcode.com/gh_mirrors/tr/Transformers-RL 项目介绍在当今的AI研究领域中，当深度学习的两大明星——Transformer模型和强化学习（Reinforcement Learning, RL）碰撞时，无疑能激发出令人瞩目的火花。Transformers-RL正是一座连...

强化学习中的Transformer发展到哪一步了？清华、北大等联合发布TransformRL综述

gzq0723的博客

02-11

777

计算机视觉研究院专栏作者：Edison_G受监督学习的启发，人们对把 Transformer 用于强化学习产生了浓厚的兴趣。转自《机器之心》公众号ID｜ComputerVisionGzq学习群｜扫码在主页获取加入方式强化学习（RL）为顺序决策提供了一种数学形式，深度强化学习（DRL）近年来也取得巨大进展。然而，样本效率问题阻碍了在现实世界中广泛应用深度强化学习方法。为了解决这个问题，一种有效的机制...

Python深度学习实战：Transformer

weixin_47362565的博客

12-05

838

定义 train 函数，在其中将模型设置为训练模式（model.train()），然后遍历数据迭代器获取的每个批次数据，将源语言（英文）句子和目标语言（法文）句子数据分别传入模型进行前向传播计算，得到输出后计算损失，再通过反向传播（loss.backward()）计算梯度并使用优化器更新模型参数（optimizer.step()），最后累计每一轮次的平均损失并返回，通过多次循环训练来逐步优化模型。初始化模型实例，并将其移动到指定的设备（优先使用 GPU，若不存在则使用 CPU）上，准备进行训练。

QLORA:量化LLMA的有效微调

AI浩

06-28

3173

我们提出了QLORA，这是一种有效的微调方法，它减少了内存使用，足以在单个48GB GPU上微调65B参数模型，同时保留完整的16位微调任务性能。QLORA通过冻结的4位量化预训练语言模型将梯度反向传播到Low RankAdapters (LoRA)中。我们最好的模型家族，我们命名为Guanaco，在Vicuna基准上优于之前所有公开发布的模型，达到ChatGPT性能水平的99.3%，而只需要在单个GPU上进行24小时的微调。

【Transformer论文】Trajectory Transformer离线强化学习作为一个大序列建模问题

qq_43058281的博客

10-25

2194

Trajectory Transformer

深度强化学习动态运动技能

qq_43257640的博客

02-07

753

文章：《DeepLoco:Dynamic Locomotion Skills Using Hierarchical Deep Reinforcement Learning》 1、INTRODUCTION 提出了两级控制器DeeoLoco：低级控制器（low-level controller,LLC）和高级控制器（high-level controller,HLC）。低级控制器在小的时间尺度上以保...

Transformer + RL：是强化学习魔高一尺，还是 Transformer 道高一丈？（1）

m0_55289267的博客

08-30

3697

进一步地，这种网络结构可以与许多策略相结合，比如V-MPO（Actor-Critic），R2D2（Value-Based），充分让 Transformer 更适应强化学习的优化过程，并利用 Transformer 在宽度和深度易于拓展的优点，在更大的数据集，更大型的，复杂的环境中发挥作用。在那些需要长期记忆的环境中，使用 Transformer 网络的 RL 智能体可以大幅优于常规的 RNN 模型，利用状态和动作在其轨迹中的时序依赖性，捕捉各种长期时序依赖，学习一个更好的表征来去预测下一步的决策行为。...

人工智能强化学习记录，源代码如下！

GJ57017_wx的博客

04-25

474

res.append((block[i + 1] - block[i]) / (block[i] + 0.0001)) # 每步收益。x_values = np.arange(len(LOSS)) # 假设epoch是从0开始的整数序列。self.window_size = window_size # 滑动窗口大小。self.n_features = window_size # 特征数量。self.t = self.window_size // 2 # 时间。

【自然语言处理】Transformer架构

藓类少女的博客

06-26

2049

Transformer是一种深度学习模型，最早由Vaswani等人在2017年的论文中提出。它最初用于自然语言处理（NLP）任务，但其架构的灵活性使其在许多其他领域也表现出色，如计算机视觉、时间序列分析等。以下是对Transformer模型的详细介绍。

Transformer合集1

whaosoft143ai的博客

10-06

2651

强化学习发现矩阵乘法算法，DeepMind再登Nature封面推出AlphaTensor 如何提高ViT的效率？可以是让模型更容易训练，减少训练时间，也可以减少模型部署在硬件上的功耗等等。本文主要讲inference time的效率问题，简单说就是如何让模型更快，同时性能不掉太多甚至反升。

深度学习模型：Transformer详解

专业深耕，技术前沿

01-31

985

自注意力机制首先计算查询（Query）、键（Key）和值（Value）三个矩阵，然后通过缩放点积注意力（Scaled Dot-Product Attention）机制计算注意力权重，并将这些权重应用于值矩阵上，得到加权和作为输出。相比于传统的循环神经网络（RNN）模型，Transformer模型具有更好的并行性能和更短的训练时间，因此在自然语言处理（NLP）领域中得到了广泛应用。综上所述，Transformer模型作为一种基于自注意力机制的神经网络模型，具有强大的表示能力和广泛的应用前景。

强化学习有哪些方向更容易发论文？

我爱计算机视觉

03-17

1217

强化学习已经成为人工智能研究领域的热点，其在各个应用领域中取得了瞩目的成就。前天GPT-4发布，强化学习在大语言模型微调上的应用再一次被大家所关注。强化学习的研究目前在学术界还很热门，总而言之，深度学习总需要一个应用场景，而RL可以拓展DL的场景有很多。*以ICLR 2023为例，强化学习论文投递数量位居第一作为AI技术发展的风向标，计算机领域各大顶会一直备受关注，而近年来相关领域内，各大顶会中强...

Transformer模型在强化学习中的应用相关论文

2301_78829506的博客

07-24

412

Transformer模型在强化学习中的应用相关论文

Reinforcement Learning with ActorCritic for Continuous

AI天才研究院

08-20

595

作者：禅与计算机程序设计艺术 1.简介 强化学习（Reinforcement learning）是机器学习的一个领域，通过与环境互动获取奖励并尝试通过影响环境来最大化长期回报的技术。它通常被用于开发与任务相关的智能体（agent），其可以从一个初始状态（initial state）开始，通过执行动作（a

cnn+transformer与swin transformer的异同点

04-14

CNN+Transformer和Swin Transformer是两种不同的神经网络模型，它们在结构和应用方面存在一些异同点。 CNN+Transformer是一种结合了卷积神经网络（CNN）和Transformer的模型。它的主要思想是在CNN的基础上引入Transformer的自注意力机制，以提高模型对全局信息的感知能力。CNN+Transformer在计算机视觉任务中表现出色，如图像分类、目标检测和语义分割等。 Swin Transformer是一种基于Transformer的图像分类模型。与传统的Transformer模型不同，Swin Transformer引入了分层的注意力机制，将图像分割成小块进行处理，从而减少了计算复杂度。Swin Transformer通过层次化的注意力机制有效地捕捉了图像中的全局和局部信息，使得模型在大规模图像分类任务上取得了很好的性能。异同点如下： 1. 结构：CNN+Transformer结合了CNN和Transformer，而Swin Transformer是一种基于Transformer的模型。 2. 注意力机制：CNN+Transformer和Swin Transformer都使用了Transformer的自注意力机制，但Swin Transformer引入了分层的注意力机制来处理图像。 3. 计算复杂度：Swin Transformer通过分块处理图像来减少计算复杂度，而CNN+Transformer没有这个设计。 4. 应用领域：CNN+Transformer主要应用于计算机视觉任务，如图像分类、目标检测和语义分割等；而Swin Transformer主要用于图像分类任务。