Offline RL ：Bootstrapped Transformer for Offline Reinforcement Learning

最新推荐文章于 2024-09-06 17:31:33 发布

收到求救信号

最新推荐文章于 2024-09-06 17:31:33 发布

阅读量591

点赞数 10

分类专栏： Transformer 强化学习离线强化学习文章标签： transformer 深度学习人工智能

本文链接：https://blog.csdn.net/wdnmdwsmsa/article/details/139122955

版权

强化学习同时被 3 个专栏收录

86 篇文章 1 订阅

订阅专栏

离线强化学习

36 篇文章 0 订阅

订阅专栏

Transformer

9 篇文章 0 订阅

订阅专栏

NIPS 2022
paper
code
可看作是一种数据增强

Intro

最近的一些工作通过将离线 RL 视为一种通用的序列生成问题，并采用诸如 Transformer 架构的序列模型来模拟轨迹上的分布。然而，一般离线 RL 任务中使用的训练数据集通常非常有限，并经常因分布覆盖不足而受到影响，这可能对训练序列生成模型不利。

为此，作者提出了 Bootstrapped Transformer 算法，该算法结合了自举（bootstrapping）的思想，利用学习到的模型生成更多的离线数据，以进一步增强序列模型的训练。通过在两个离线 RL 基准上的广泛实验，作者证明了他们的模型可以大幅弥补现有的离线 RL 训练限制，并超越其他强基线方法。

Method

首先根据序列数据添加累计回报 $R_{t}=\sum_{t^{\prime}=t}^{T}\gamma^{t^{\prime}-t}r_{t^{\prime}}$ , 并对原始数据处理成离散的token space
$\tau =\tau_{\text{dis}}=\begin{pmatrix}\ldots,s_t^1,s_t^2,\ldots,s_t^N,a_t^1,a_t^2,\ldots,a_t^M,r_t,R_t,\ldots\end{pmatrix}.$
接下来采用TT架构，通过最大化似然函数 $\mathcal{L}$ 优化序列模型
$\begin{aligned} \log P_{\theta}(\tau_{t}|\tau_{<t})& =\sum_{i=1}^{N}\log P_{\theta}(s_{t}^{i}|s_{t}^{<i},\tau_{<t})+\sum_{j=1}^{M}\log P_{\theta}(a_{t}^{j}|a_{t}^{<j},s_{t},\tau_{<t}) \\ &+\log P_\theta(r_t|\boldsymbol{a}_t,s_t,\tau_{<t})+\log P_\theta(R_t|r_t,\boldsymbol{a}_t,s_t,\tau_{<t})\\ \mathcal{L}(\tau)&=\sum_{t=1}^T\log P_\theta(\tau_t|\tau_{<t}), \end{aligned}$

Trajectory Generation

接下俩便是利用模型生成轨迹实现数据增强。文章这里提出了两种增强方法

Autoregressive generation： $\tilde{y}_n\sim P_\theta\left(y_n|\tilde{y}_{<n},\tau_{\leq T-T'}\right)$ 。通过自回归的方法生成各个token。
Teacher-forcing generation： $\tilde{y}_n\sim P_\theta\left(y_n|{y}_{<n},\tau_{\leq T-T'}\right)$ ，正常序列生成

增强后的tokens数据将于原始数据concatenate共同训练序列模型

为了防止由于训练数据不准确而导致的累积学习偏差，根据生成百分比 η% 选择每批中置信度分数最高的部分轨迹。置信度定义为所有生成的令牌的平均对数概率为:
$c(\tau)=\frac{1}{T'(N+M+2)}\sum_{t=T-T'+1}^T\log P_\theta(\tau_t|\tau_{<t})$