【Transformer论文】Trajectory Transformer离线强化学习作为一个大序列建模问题

Wwwilling

已于 2022-12-08 20:12:27 修改

阅读量2.1k

点赞数 1

分类专栏： Transformer系列论文强化学习文献阅读深度强化学习文章标签： transformer 深度学习强化学习

于 2022-10-25 00:12:20 首次发布

本文链接：https://blog.csdn.net/qq_43058281/article/details/127454408

版权

Transformer系列论文同时被 3 个专栏收录

19 篇文章

订阅专栏

强化学习文献阅读

19 篇文章

订阅专栏

深度强化学习

12 篇文章

订阅专栏

文献题目：Offline Reinforcement Learning as One Big Sequence Modeling Problem
发表会议：35th Conference on Neural Information Processing Systems (NeurIPS 2021)
代码：trajectory-transformer.github.io

摘要

强化学习 (RL) 通常与估计静态策略或单步模型有关，利用马尔可夫属性及时分解问题。但是，我们也可以将 RL 视为一个通用的序列建模问题，其目标是产生一系列动作，从而导致一系列高回报。从这个角度来看，很容易考虑在其他领域（例如自然语言处理）中运行良好的大容量序列预测模型是否也可以为 RL 问题提供有效的解决方案。为此，我们探索了如何使用序列建模工具来处理 RL，使用 Transformer 架构对轨迹上的分布进行建模，并将波束搜索重新用作规划算法。将 RL 框架化为序列建模问题简化了一系列设计决策，使我们能够省去离线 RL 算法中常见的许多组件。我们展示了这种方法在长期动态预测、模仿学习、目标条件强化学习和离线强化学习方面的灵活性。此外，我们表明，这种方法可以与现有的无模型算法相结合，在稀疏奖励、长期任务中产生最先进的规划器。

引言

强化学习的标准处理依赖于将长期问题分解为更小、更局部的子问题。在无模型算法中，这采用最优性原则（Bellman，1957）的形式，一种自然地导致动态规划方法类的递归，如 Q-learning。在基于模型的算法中，这种分解采用单步预测模型的形式，它将预测高维、依赖于策略的状态轨迹的问题简化为估计相对简单的、与策略无关的过渡分布的问题。
然而，我们也可以将强化学习视为类似于序列生成问题，其目标是产生一系列动作，当在环境中实施时，将产生一系列高回报。在本文中，我们考虑了这个类比的逻辑极端：当代序列建模工具箱本身是否提供了可行的强化学习算法？我们通过将轨迹视为状态、动作和奖励的非结构化序列来研究这个问题。我们使用 Transformer 架构 (Vaswani et al., 2017) 对这些轨迹的分布进行建模，这是当前捕获长视界依赖关系的首选工具。代替基于模型的控制中常见的轨迹优化器，我们使用波束搜索（Reddy，1977），一种在自然语言处理中普遍存在的启发式解码方案，作为规划算法。
将强化学习和更广泛的数据驱动控制作为一个序列建模问题来处理通常需要不同解决方案的许多考虑因素：actor-critic 算法需要单独的actor和critic，基于模型的算法需要预测动态模型，以及离线 RL方法通常需要估计行为策略（Fujimoto 等人，2019）。这些组件估计不同的密度或分布，例如在参与者和行为策略的情况下对动作的估计，或者在动态模型的情况下对状态的估计。甚至价值函数也可以被视为在具有辅助最优性变量的图形模型中执行推理，相当于估计未来奖励的分布（Levine，2018）。所有这些问题都可以统一在一个单一的序列模型下，该模型将状态、动作和奖励视为简单的数据流。这种观点的优势在于，可以使用大容量序列模型架构来解决该问题，从而产生一种更简化的方法，该方法可以受益于大规模无监督学习结果的相同可扩展性（Brown 等人，2020 年）。
我们将我们的模型称为轨迹转换器（图 1）并在离线状态下对其进行评估，以便能够利用大量先前的交互数据。 Trajectory Transformer 是比传统动力学模型更可靠的长视界预测器，即使在标准模型参数化原则上足够的马尔可夫环境中也是如此。当使用修改后的波束搜索程序解码时，该程序会根据累积奖励对轨迹样本进行偏置，轨迹变换器在离线 RL 基准上获得结果，与专门为该设置设计的最佳先前方法相媲美。此外，我们描述了相同解码过程的变化如何产生基于模型的模仿学习方法、达到目标的方法，以及与动态规划相结合时，用于稀疏奖励、长期地平线任务。我们的结果表明，广泛应用于无监督学习的算法和架构主题在 RL 中具有类似的好处。
图 1（架构）Trajectory Transformer 在（自回归离散的）状态、动作和奖励序列上进行训练。使用 Trajectory Transformer 进行规划反映了用于从语言模型生成序列的采样过程。

作为序列建模的强化学习和控制

在本节中，我们将描述序列模型的训练过程，并讨论如何将其用于控制。为简洁起见，我们将模型称为轨迹转换器，但强调在实现级别，我们的模型和搜索策略几乎与自然语言处理中常见的相同。因此，建模考虑较少关注架构设计，而更多关注如何表示轨迹数据——可能由连续状态和动作组成——以供离散令牌架构处理（Radford 等人，2018 年）。

Trajectory Transformer

我们方法的核心是将轨迹数据视为非结构化序列，以便通过 Transformer 架构进行建模。一条轨迹 $τ$ 由 $T$ 个状态、动作和标量奖励组成：
在连续状态和动作的情况下，我们独立离散每个维度。假设 $N$ 维状态和 $M$ 维动作，这将 $τ$ 转换为长度为 $T (N + M + 1)$ 的序列：
所有标记上的下标表示时间步长，状态和动作上的上标表示维度（即， $s^i_t$ 是状态在时间 $t$ 的第 $i$ 个维度）。虽然这种选择可能看起来效率低下，但它允许我们以更具表现力的方式对轨迹上的分布进行建模，而无需简化高斯转换等假设。
我们研究了两种简单的离散化方法：

Uniform：给定维度的所有标记对应于原始连续空间的固定宽度。假设每个维度的词汇量为 $V$ ，状态维度 $i$ 的标记覆盖宽度 ( $max s^i − min s^i)/V$ 的均匀间隔。
分位数：给定维度的所有代币在经验数据分布下占等量的概率质量；每个token占训练集中每个 $V$ 个数据点中的 1 个。

均匀离散化的优点是它在原始连续空间中保留了欧几里得距离的信息，这可能比训练数据分布更能反映问题的结构。然而，数据中的异常值可能会对离散化大小产生巨大影响，留下许多对应于零训练点的标记。分位数离散化方案确保所有标记都在数据中表示。我们在第 4.2 节对两者进行了实证比较。
我们的模型是一个镜像 GPT 架构的 Transformer 解码器（Radford 等人，2018）。我们使用的架构比大规模语言建模中通常使用的架构更小，由四层和四个自注意力头组成。（附录 ?? 中提供了完整的架构描述）。使用用于训练序列模型的标准教师强制程序 (Williams & Zipser, 1989) 进行训练。将 Trajectory Transformer 的参数表示为 $θ$ 并将诱导条件概率表示为 $P_θ$ ，训练期间最大化的目标是：
其中我们使用 $τ < t$ 来表示从时间步长 0 到 $t - 1$ 的轨迹， $s^{<i}_t$ 来表示在时间步长 $t$ 的状态的维度 0 到 $i - 1$ ，对于 $a^{<j}_t$ 也是类似的。我们使用学习率为 $2.5 × 10^{−4}$ 的 Adam 优化器 (Kingma & Ba, 2015) 来训练参数

利用波束搜索进行规划

现在，我们将介绍如何使用轨迹转换器进行序列生成，以重新用于控制，重点关注三种设置：模仿学习、目标条件强化学习和离线强化学习。这些设置在自然语言处理中常规使用的序列模型解码方法之上，在越来越多的必要修改中列出。
提供我们规划技术基础的核心算法，即波束搜索，在通用序列的算法 1 中进行了描述。在Meister等人（2020）的介绍之后，我们重载了对数 $P_θ（·| x）$ 来定义除单个序列之外还有一组序列的可能性：
我们使用（）来表示空序列，用 ◦ 来表示串联。
模仿学习。当目标是在训练数据中重现轨迹的分布时，我们可以直接针对轨迹的概率 $τ$ 进行优化。这种情况完全符合序列建模的目标，因此，我们可以通过将条件输入 $x$ 设置为当前状态 $s_t$ （以及可选的先前历史 $τ < t$ ）来使用算法1而无需修改。
此过程的结果是标记化轨迹 $τ$ ，从当前状态 $s_t$ 开始，在数据分布下具有很高的概率。如果序列中的第一个动作被执行并且光束搜索被重复，我们就会得到一个后退的地平线控制器。这种方法类似于基于模型的长视界行为克隆变体，其中整个轨迹被优化以匹配参考行为的轨迹，而不仅仅是立即的状态条件操作。如果我们将预测的序列长度设置为操作维度，则我们的方法完全对应于具有自回归策略的最简单的行为克隆形式。
目标条件强化学习。变压器架构具有“因果”注意力掩码，以确保预测仅依赖于序列中的先前标记。在自然语言的上下文中，这种设计对应于以句子的线性顺序生成句子，而不是以反映其分层句法结构的顺序（但是，请参阅Gu等人2019，讨论使用自回归模型的非左到右句子生成）。在轨迹预测的背景下，这种选择反而反映了物理因果关系，不允许未来事件影响过去。然而，给定未来的过去的条件概率仍然是明确定义的，允许我们不仅根据已经观察到的上述状态，行为和rewards来调节样本，还可以根据我们希望发生的任何未来背景来调节样本。如果未来上下文是轨迹末尾的状态，则我们用以下形式的概率解码轨迹：
我们可以通过对所需的最终状态 $s_T$ 进行条件反射，直接将其用作达到目标的方法。如果我们总是在最终目标状态上限定序列，我们可以保持对角线较低的注意掩码不变，并简单地将输入轨迹置换为 ${s_T， s_1， s_2， . . ， s_{T −1}\}$ 。通过将目标状态预先设定为序列的开头，我们确保所有其他预测都可以在不修改标准注意力实现的情况下处理它。这种条件反射程序类似于使用监督学习来训练目标条件策略的先前方法（Ghosh等人，2021），并且还与无模型RL中的重新标记技术有关（Andrychowicz等人，2017）。在我们的框架中，它与序列建模中的标准子例程相同：根据可用证据推断最可能的序列。
离线强化学习。算法 1 中描述的波束搜索方法优化序列在数据分布下的概率。通过将转换的对数概率替换为预测的奖励信号，我们可以使用相同的轨迹转换器和搜索策略来实现奖励最大化行为。作为推理图形模型（Levine，2018），我们实际上是在用其最优性对数概率替换光束搜索中过渡的对数概率。
使用光束搜索作为奖励最大化程序有导致近视行为的风险。为了解决这个问题，我们用reward-to-go去：
来增强训练轨迹中的每个转换，并将其作为一个额外的量，与其他量相同地离散化，以便在立即rewards $r_t$ 后预测。在规划期间，我们可以从模型中访问价值估算，以增加累积奖励。虽然当不允许在线数据收集时，已知对这种蒙特卡洛值估计的贪婪行为存在样本复杂性差和收敛到次优行为的困扰，但我们只使用这种奖励去估计作为启发式来指导波束搜索，因此我们的方法不要求估计值像仅依靠值估计来选择操作的方法那样准确。
在离线 RL 中，外带奖励估计是收集训练数据的行为策略的函数，通常不对应于轨迹转换器派生策略实现的值。当然，学习行为策略的价值函数比最优策略的值函数要简单得多，因为我们可以简单地使用蒙特卡洛估计值，而无需依赖 Bellman 更新。用于改进策略的值函数将提供更好的搜索启发式，尽管需要调用动态编程工具。在第 4.2 节中，我们展示了简单的reward-to-go去估计值足以在许多环境中使用轨迹变形器进行规划，但改进的价值函数在最具挑战性的设置中很有用，例如稀疏奖励任务。
由于Trajectory Transformer仅预测每 $N + M + 1$ 个令牌的reward和 reward-to-go，因此我们根据模型对数概率对所有中间令牌进行采样，就像在模仿学习和目标实现设置中一样。更具体地说，我们使用似然最大化光束搜索对完全转换 $s_t，a_t，r_t，R_t）$ 进行采样，将这些转换视为我们的词汇表，并按累积reward加reward-to-go估计值最高的转换序列过滤转换序列。
我们采用了一种序列建模路线，可以被描述为一种看起来相当简单的基于模型的计划算法，因为我们对候选行动序列进行采样，使用预测模型评估其效果，并选择奖励最大化轨迹。这一结论部分是由于序列建模与轨迹优化之间的密切关系。然而，有一个值得强调的差异：通过与状态一起对操作进行建模并使用相同的过程对它们进行采样，我们可以防止在分布外操作上查询模型。将动作序列视为不依赖于状态的无约束优化变量（Nagabandi等人，2018）的替代方法可以更容易地导致模型利用，因为在学习模型中最大化奖励的问题与为分类器寻找对抗性示例的问题非常相似（Goodfellow等人，2014）。

实验

我们的实验评估集中在(1)与标准动力学模型参数化相比，轨迹变压器作为长视距预测器的准确性和(2)序列建模工具——即波束搜索——作为离线强化学习、模仿学习和目标达成环境下的控制算法的效用。

模型分析

我们首先评估作为长期政策条件预测模型的轨迹转换器。对于给定的策略，预测轨迹的通常策略是使用单步模型推出，使用策略提供的操作。我们的协议与标准方法的区别不仅在于模型不是马尔可夫的，而且在于它不需要访问策略来进行预测——策略的输出与策略遇到的状态一起建模。在这里，我们只关注模型预测的质量;在下一小节中，我们将使用模型预测的动作作为模仿学习方法。
轨迹预测。图2描述了在经过训练的类人策略收集的数据集上进行训练后，我们的模型预测的100时步轨迹的可视化。虽然基于模型的方法已被应用于类人任务，但之前的工作倾向于有意地将地平线保持较短，以防止模型误差的积累(Janner等人，2019;Amos等人，2021年)。参考模型是PETS的概率集成实现(Chua等，2018);我们调整了集合中模型的数量、层的数量和层的大小，但无法产生一个预测超过几十个步骤的精确序列的模型。相比之下，我们看到轨迹转换器的长视距预测更加准确，即使在预测100步之后，在视觉上仍然与地面真实轨迹难以区分。据我们所知，此前还没有基于模型的RL算法在类似维度的任务上演示过如此精度和长度的预测推出。
图2(预测可视化) 由轨迹转换器生成的长度-100轨迹与来自最先进的规划算法PETS的前馈高斯动力学模型的定性比较。两种模型均以单一策略收集的轨迹为训练对象，给出真实的轨迹作为参考。单步模型的综合误差导致物理上不可信的预测，而transformer生成的轨迹在视觉上与在实际环境中执行的政策产生的轨迹难以区分。脚和头的路径通过空间来描绘渲染帧之间的运动。
误差积累。图3给出了同一发现的定量说明，其中我们评估了模型的累积误差与预测水平的关系。标准预测模型往往具有良好的单步误差，但较差的长水平精度，因此，我们不是评估测试集的单步可能性，而是从固定的起始点对1000个轨迹进行采样，以估计每个模型预测的每时间步状态边际。然后，我们报告参考政策访问的州的可能性在这些预测边缘下的一组轨迹上。为了评估离散化模型下的可能性，我们将每个容器视为其指定范围内的均匀分布;根据构造，该模型在此范围之外的概率为零。
- 图3(综合模型误差) 我们比较了轨迹转换器(具有均匀离散化)与概率前馈模型集合(Chua等人，2018)在拟人环境规划视界过程中的精度，对应于图2中可视化的轨迹。与前馈模型相比，轨迹变换器对预测视界的误差组合明显更好。离散oracle是给定离散化大小可获得的最大对数似然;参见附录进行讨论。
为了更好地隔离Transformer在标准单步模型上改进精度的来源，我们还评估了相同体系结构的马尔可夫变体。这种消融有一个截断的上下文窗口，防止它在过去参与多个时间步。该模型在完全观测环境下的表现与轨迹Transformer相似，表明自回归状态离散化带来的体系结构差异和表达能力的提高在轨迹Transformer的长视距精度中发挥了重要作用。我们构建了同一个类人环境的部分观察版本，其中每个状态的每个维度都以50%的概率被掩盖(图3右)，并发现，正如预期的那样，在这种设置下，长视界条件作用在模型的准确性方面发挥了更大的作用。
注意模式。我们在图4中将模型预测期间的注意力映射可视化。我们发现了两种主要的注意力模式。第一种是一种被发现的马尔可夫策略，在这种策略中，状态预测绝大多数关注于之前的过渡。第二种是定性的条纹，模型关注于每个状态预测的多个先验状态中的特定维度。同时，行动预测更关注先前的行动，而不是先前的状态。动作相关性与通常的行为克隆表述形成对比，在行为克隆中，动作只是过去状态的函数，但这让人想起一些规划算法中使用的动作过滤技术，以产生更流畅的动作序列(Nagabandi等人，2019年)。
图4(注意模式) 在轨迹预测过程中，我们观察到两种不同类型的注意面具。在第一个模型中，状态和动作都主要依赖于紧接前面的转换，对应于一个学习了马尔可夫性质的模型。第二种策略具有条纹外观，状态维度最强烈地依赖于多个之前时间步骤的相同维度。令人惊讶的是，动作更多地依赖于过去的动作，而不是过去的状态，这让人想起了一些轨迹优化算法中使用的动作平滑(Nagabandi等人，2019年)。上述面罩是由第一层和第三层注意头在对料斗基准进行顺序预测时产生的;在这个可视化过程中，我们省略了奖励维度。
更多的注意力可视化可以在trajectory-transformer.github.io/attention中找到

强化学习与控制

离线强化学习。我们在D4RL离线基准套件(Fu等人，2020年)的许多环境中评估了轨迹转换器，包括运动和AntMaze领域。这种评估是我们控制设置中最困难的，因为奖励最大化行为与通常与无监督建模相关的行为类型(即模仿行为)在质量上最不同。运动环境的结果如表1所示。我们将其与其他五种数据驱动控制方法进行比较:(1)行为规整的参与者-批评者(BRAC;Wu et al. 2019)和保守q -学习(CQL;Kumar等人。2020a)表示当前最先进的无模型离线RL;基于模型的离线规划(MBOP;Argenson & Dulac-Arnold 2021)是性能最好的先验离线轨迹优化技术;决定变压器(DT;Chen等人(2021))是一种同时开发的序列建模方法，使用返回条件反射代替计划;行为克隆(BC)提供了纯模仿方法的性能。
图5(离线平均值) 表1显示了每个算法的平均性能，根据粗略的算法分类，用条形图着色。在这个图中，“轨迹转换器”指的是分位数离散化变体。
轨迹转换器的性能与之前的所有方法相同或更好(表1)。轨迹转换器的两种离散化变体，均匀和分位数，在所有环境中表现相似，除了半猎豹-中-专家，在半猎豹-中-专家环境中，速度的大范围阻止了均匀离散化方案恢复制定专家策略所需的精确驱动。结果，分位数离散化方法获得了均匀离散化方法两倍多的回报。
表1(离线强化学习) 轨迹转换器(TT)在D4RL运动(v2)任务上的表现与最好的离线强化学习算法相当或更好。TT变量的结果对应于15个随机种子(5个独立训练的Transformer和每个Transformer的3个轨迹)的平均值和标准误差。我们在附录中详细介绍了其他方法的性能来源。
结合Q-functions。虽然蒙特卡洛值估计对于许多标准的离线RL基准足够，但在稀疏奖励和长视距设置下，它们变得信息量太大，无法指导基于波束搜索的规划过程。在这些问题中，可以用动态规划训练的q函数代替Transformer的值估计。我们通过使用隐式q学习算法(IQL;Kostrikov et al. 2021)的AntMaze导航任务(Fu et al.， 2020)，对于这些任务，在到达目标状态时只有一个稀疏的奖励。这些任务评估时间合成性，因为它们需要将数据集中的多个零奖励轨迹拼接在一起，以达到指定的目标。
AntMaze的结果如表2所示。在所有迷宫大小和数据集组成上，q引导的轨迹变压器规划优于所有先前的方法。特别是，它优于我们从中获得q函数的IQL方法，这强调了使用q函数作为搜索启发式的规划比策略提取更不容易受到q函数错误的影响。然而，由于q引导的规划过程仍然受益于动态规划和规划的时间组合性，它优于返回条件反射方法，如Decision Transformer，因为在AntMaze数据集中缺乏完整的演示。
表2(结合q函数) 稀疏奖励AntMaze (v0)导航任务的性能。使用Q函数作为带有轨迹转换器(TT (+Q))的搜索启发式优于使用Q函数(IQL)和返回条件反射方法(如决策转换器(DT))的策略提取。我们报告TT (+Q)在15个随机种子上的均值和标准误差;基线结果来自Kostrikov等人(2021)。
模仿和goal-reaching。此外，我们计划使用轨道转换器使用标准的可能性最大化光束搜索，而不是用于离线RL的回报最大化版本。我们发现，在根据专家策略收集的数据集对模型进行训练后(Fu等人，2020年)，使用波束搜索作为后退地平线控制器，在Hopper和Walker2d环境中分别实现了104%和109%的平均归一化回报，使用的是离线RL结果中描述的15次运行的相同评估协议。虽然这一结果可能并不令人惊讶，因为使用标准前馈架构的行为克隆已经能够再现专家策略的行为，但它表明，用于语言建模的解码算法可以有效地用于控制。
最后，我们评估了目标达到的波束搜索变体，它的条件是一个未来的期望状态和之前遇到的状态。我们使用经典四室环境的连续变体作为测试平台(Sutton et al.， 1999)。我们的训练数据由预先训练的目标实现代理收集的轨迹组成，在状态空间中以均匀的随机抽样方式对起始和目标状态进行采样。图6描述了规划器所采用的路由。对未来状态的反因果条件反射允许将束搜索用作目标实现方法。游戏不需要任何奖励塑造或奖励;规划方法完全依赖于目标重新标记。将这个实验扩展到程序生成的地图在附录中描述。
图6 (Goal-reaching) 在四个房间环境的连续变化中，TTO用反因果目标状态条件反射收集的轨迹。轨迹被可视化为曲线通过所有遇到的状态，随着时间的推移，颜色变得更加饱和。注意，这些曲线描述的是控制器收集到的真实轨迹，而不是采样序列。初始状态描述为

讨论和局限性

我们提出了强化学习的序列建模视图，它使我们能够为不同范围的问题设置派生单一算法，在单一序列模型下统一强化学习算法的许多标准组件(如策略、模型和价值函数)。该算法包括联合训练一个序列模型的状态、动作和奖励，并使用最小修正的波束搜索从它采样。尽管使用了大规模语言建模工具，而不是那些通常与控制相关的工具，我们发现这种方法在模仿学习、目标实现和离线强化学习中是有效的。
然而，与基于模型的控制中经常使用的单步模型类型相比，transformer的预测目前更慢，更消耗资源，当上下文窗口变得太大时，需要多秒钟来进行动作选择。这排除了大多数动力系统的标准变压器的实时控制。虽然基于波束搜索的规划器在概念上是模型预测控制的一个实例，因此可以适用于任何基于模型的RL，但在实践中，缓慢的规划也使在线RL实验难以操作。(计算效率高的Transformer架构(Tay等人，2021年)有可能大幅削减运行时间。)此外，我们选择离散化连续数据以适应标准体系结构，而不是修改体系结构来处理连续输入。虽然我们发现这种设计比传统的连续动力学模型更有效，但它在原则上确实对预测精度施加了一个上限。
本文研究了一种可应用于RL问题的极小型算法。虽然我们的研究结果的一个有趣含义是，RL问题可以通过适当的模型选择被重新定义为监督学习任务，但这一想法的最实际的实例可能来自与动态规划技术的结合，正如轨迹转换器与q引导规划的有效性所表明的那样。