Abstract
我们介绍了一种深度强化学习的方法,它通过结构化感知和关系推理提高了传统方法的效率、泛化能力和可解释性。它使用self-attention来迭代推理场景中实体之间的关系,并指导无模型策略。我们的结果表明,在一种名为Box-World的新的导航和规划任务中,我们的agent找到了可解释的解决方案,这些解决方案在样本复杂性、泛化到比训练期间所经历的更复杂的场景的能力以及整体性能方面都有所改善。在星际争霸II学习环境中,我们的agent在六个迷你游戏上实现了最先进的表现,超过了人类特级大师在四个游戏上的表现。通过考虑架构归纳偏差,我们的工作为克服深度强化学习中重要但顽固的挑战开辟了新的方向。
Introduction
深度强化学习最新进展在一定程度上是由一种能力推动的,即学习良好的内部表示以告知agent的策略。不幸的是,深度强化学习模型仍然面临着重要的限制,即样本效率低,并且倾向于不将其泛化到任务中极小的变化。这些限制表明,大容量的深度强化学习模型往往过度适应它们所训练的大量数据,因此无法学习到对它们试图解决的问题的抽象、可解释和可概括的理解。
在这里,我们通过利用20多年前关系强化学习保护伞(RRL)下的强化学习文献中介绍的见解来改进深度强化学习架构。RRL提倡使用关系状态(和动作)空间和策略表示,将关系学习(或归纳逻辑编程)的泛化能力与强化学习相结合。我们提出了一种在深度学习提供学习动力的同时利用这些优势的方法。我们的方法主张学习和重用以实体和关系为中心的函数,以隐式推理而不是关系表示。
我们的贡献如下:(1)我们创建并分析了一个名为Box-World的强化学习任务,它明确地面向关系推理,并证明了具有使用基于注意力的非局部计算产生关系表示的agent比没有使用非局部计算的agent显示出有趣的泛化行为;(2)我们将该agent应用于一个困难的问题–星际争霸II迷你游戏,并在六个迷你游戏上实现了最先进的性能。
Relational reinforcement learning
RRL背后的核心思想是通过使用一阶(或关系)语言表示状态、动作和策略,将强化学习与关系学习或归纳逻辑规划相结合。从命题表示转换为关系表示可促进对目标,状态和动作的泛化,从而利用在较早学习阶段学到的知识。此外,关系语言还便于背景知识的使用。可以通过与学习问题相关的逻辑事实和规则来提供背景知识。
例如,在块世界中,当指定背景知识时,可以使用上面的谓词(S,A,B)来指示在状态S中块A在块B之上。例如,这样的谓词可以在学习块C和块D的过程中使用。代表性语言、背景和假设形成了归纳偏见,引导(和限制)寻找好的策略。语言(或陈述性)偏见决定了概念的表达方式。
神经网络传统上与属性值或命题强化学习方法相关联。在这里,我们使用神经网络模型,将思想从RRL转换为深度强化学习agent中体系结构指定的归纳偏差,该神经网络模型对组织结构的表示方式(即实体集)进行操作,并通过迭代的、类似于消息传递的处理模式执行关系推理。实体对应于图像的局部区域,agent学习关注关键对象并计算它们的成对和高阶交互。
Architecture
我们为一个深度强化学习agent配备了可能更适合学习(和计算)关系的体系结构归纳偏见,而不是像在RRL中那样将它们指定为背景知识。这种方法建立在以前工作的基础上,该工作表明,关系计算不一定要受到实体空间邻近性的影响,也可以从迭代结构化推理中获益。
我们的贡献基于两个指导原则:使用共享函数的非局部计算和迭代计算。我们表明,与只计算局部交互的agent相比,使用共享函数计算实体之间的成对交互(与实体之间的空间邻近程度无关)将更适合学习重要关系,例如在平移不变卷积中。此外,迭代计算可能能够更好地捕捉实体之间的高阶交互作用。
Computing non-local interactions using a shared functionAmong
在一系列相关的非局部交互计算方法中,我们选择了一种计算效率高的注意机制。这种机制与图神经网络和更一般的消息传递计算有相似之处。在这些模型中,实体与实体的关系是在考虑图的连接节点之间传递的消息时显式计算的。
我们首先假设我们已经有了一组必须进行交互的实体。我们认为多头点积注意力(MHDPA),或self-attention,是计算这些实体之间互动的操作。
对于 N N N个实体( e 1 : N e_{1:N} e1:N),MHDPA将每个实体 i i i的状态向量 e i e_i ei分别投影到查询、键和值向量表示: q i q_i qi、 k i k_i ki、 v i v_i vi,随后使用[31]中的方法将其活动归一化为具有0均值和单位方差。通过点积将每个 q i q_i qi与所有实体的键 k 1 : N k_{1:N} k1:N进行比较,以计算非归一化显著性