Value Propagation Networks阅读笔记-CSDN博客

本文链接：https://blog.csdn.net/sinat_39470268/article/details/105746046

原文及翻译

Abstract 摘要：
We present Value Propagation (VProp), a set of parameter-efficient differentiable planning modules built on Value Iteration which can successfully be trained using reinforcement learning to solve unseen tasks, has the capability to generalize to larger map sizes, and can learn to navigate in dynamic environments. We show that the modules enable learning to plan when the environment also includes stochastic elements, providing a cost-efficient learning system to build low-level size-invariant planners for a variety of interactive navigation problems. We evaluate on static and dynamic configurations of MazeBase grid-worlds, with randomly generated environments of several different sizes, and on a StarCraft navigation scenario, with more complex dynamics, and pixels as input.
我们提出了一种可导的参数较少的规划模块：VProp（基于价值迭代），用强化学习训练来求解未知任务，并且可以泛化到更大的地图尺寸，也能够在动态环境中操作。我们证明，VProp在包含随机元素的环境中不失有效性，从而提供了一种经济高效的学习系统为各种交互式导航问题构建低级尺寸不变的规划。我们基于迷宫的网格世界的静态和动态配置，随机生成了几种不同大小的环境进行评估，并在有更复杂的动态和像素作为输入的星际争霸场景中进行了评估。

1 Introduction 引言
规划是人工智能在各个领域的关键组成部分。然而，经典规划算法的局限性体现在，需要知道如何为每一种可能的规划类型的每一个实例寻找最优的—或者至少是合理的解决方案。随着环境动态和状态复杂性的增加，规划变得困难、麻烦，或者完全不切实际。这就是为什么“学习规划”一直是一个活跃的研究领域的原因之一(Russell等人，1995;Kaelbling等人，1996)。为了能够在实践中变得有用，我们假设能够学习规划的方法至少应该有两个优点

算法的轨迹应是自由的，即不需要最优规划者的轨迹.（ they should be traces free, i.e. not require traces from an optimal planner）
能够泛化,即实例或者规划的方向未知，规划器也能在相同类型的规划上起作用。（they should generalize, i.e. learn planners that are able to function on plans of the same type but of unseen instance and/or planning horizons.）

在强化学习(RL)中，学习规划可以被转化为是寻找最大化预期回报策略的问题。这是一个贪婪策略，它选择具有较高价值的状态。（where such policy is a greedy function that selects actions that will visit states with a higher value for the agent\不是highest？）这反过来将问题转化为估计状态价值。解决这一问题最常用的算法之一是价值迭代(VI)，通过收集和传播观测到的奖励值来估计状态值，直到达到一个定点。（which estimates the state values by collecting and propagating the observed rewards until a fixed point is reached.）然后，可以通过在所需的状态-动作对上展开获得的值函数来构造策略（规划）。（rolling out the obtained value function on the desired state-action pairs）

当环境可以用占有图（二维网格）代表，就可以通过用深度卷积神经网络(CNN)来传播网格单元上的奖励来近似规划算法，这使得人们可以通过规划每一步直接区分并且执行值函数的端到端学习.（This enables one to differentiate directly through the planner steps and perform end-to-end learning of the value function.）Tamar et al. (2016) 训练了VIN模型，对来自搜索/规划算法的轨迹采用了有监督的损失函数，目标是通过使用卷积层迭代学习值函数寻找可以解决此类环境中最短路径任务的参数值。然而，这需要良好的目标价值估计，这违反了我们希望的无轨迹属性，并限制了它在交互式动态设置中的使用。此外，它没有利用模型结构来进行泛化。VIN – with a supervised loss on the trace from a search/planning algorithm, with the goal to find the parameters that can solve the shortest path task in such environments by iteratively learning the value function using the convnet. However, this baseline requires good target value estimates, violating our wished trace free property, and limiting its usage in interactive, dynamic settings. Furthermore, it doesn’t take advantage of the model structure to generalise to harder instances of the task.

本文我们将VIN中使用的规范化扩展到更准确地代表网格世界的场景结构中,使VIN在初始工作范围之外强化学习框架中也可使用,同时删除了一些限制和基本假设。我们证明了我们的模型不仅可以动态环境中学习规划和导航，而且它们的层次结构为应用到所需的规划范围和地图的大小比训练时看到的要大得多的情况提供了解决方法，。我们的主要贡献包括:
(1)引入VProp和MVProp网络规划模块，通过强化学习的最小的参数化成功学习解决路径搜寻任务
(2)在小地图上训练结果可用在大的未知地图中
(3)无论是在转换函数还是观察复杂度方面（both in terms of transition function and observation complexity），我们的模块在比静态网格世界更复杂的场景中也能学习。

1.1 Related work相关工作
基于模型的端到端架构规划前景广阔，通常使用深度强化学习作为算法框架(Silver et al.， 2016)。在RL框架内也处理了3D和2D导航任务(Mirowski et al. 2016)，在某些情况下，使用在2D占位图上构建和调整的方法来帮助定位和特征接地（feature grounding）的过程(Bhatti et al.2016;zhang2017;Banino et al.，2018)。

其他工作进一步探索了使用类似于VIN的架构来解决操作问题:Niu等人(2017)提出了一个泛化的VIN，通过使用一个图卷积算子对图的每个节点进行卷积来学习更一般的图结构上的模块。Rehder等人(2017)通过训练多个VI模型并将它们组合成一个网络，同时添加一个方向状态通道来模拟移动机器人中常见的非完整约束（non-holonomic constraints），演示了在协作环境中进行多智能体规划的方法。Gupta等人(2017)和Khan等人(2017)提出，通过构建分层planners 来处理部分可观察的设置，这些planners 以多尺度的方式使用VI模块来生成规划并调节模型的信念状态（ belief state）。

2 Background 背景
我们考虑在网格世界环境中对智能体的控制，其中实体可以相互交互。这些实体有一些属性（attributes），包括一个惟一定义的类型，它描述了它们如何相互交互、交互的即时回报以及交互如何影响世界的下一个状态。目标是通过强化学习来学习规划，即学习一种针对环境配置的策略，这种策略可以推广到环境的任意其他配置，包括更大的环境和具有更多实体的环境。在标准导航任务的情况下，这可以归结为学习一个策略（this boils down to learning a policy ），该策略根据对世界的观察，将输出使智能体尽可能快地达到目标的操作。智能体观察二维图像 $d_x \times d_y$ ，输入窗格 $d_{pix}$ 作为环境, 传入嵌入函数 $Φ$ (如二维卷积)提取实体并生成一些基于位置和特性的本地嵌（generates some local embedding ）。

2.1 Reinforcement Learning 强化学习
强化学习问题通常通过计算马尔可夫决策问题(MDP)的最优策略来表述(Sutton and Barto, 1998)。MDP)用 $(S, A, T, R, γ)$ 元组定义 , $S$ 是一组有限的状态集合， $A$ 是智能体可采取的动作 $a$ 的集合， $T : s \to a \to s^{'}$ 描述状态转换矩阵, $R$ 是奖励函数, $γ$ 是折扣因子。在这种背景下,最优策略 $π^∗$ 是状态动作空间的一个分布，他最大化折扣奖励 $\sum_{k}γ^kr_k$ 的期望， $r_k$ 是单步奖励。找最优策略 $π : s \to a$ 的一个标准方法是迭代计算价值函数, $Q^π(s, a)$ ,根据从环境得到的奖励进行更新(Watkins and Dayan, 1992)。使用该框架，我们可以将学习规划看作是用价值迭代算法对奖励的结构化预测(Bertsekas, 2012)（as inference procedure）。策略梯度算法也能找到最优策略(Sutton et al ., 1999),直接回归到策略函数 $π$ 而不是去近似价值函数。然而，这些方法在需要许多步骤的环境中方差较大。此外， actor-critic（AC）算法也用来解决最优策略问题，它结合了策略梯度方法能够直接计算策略和基于值的的低方差优点，作为对policy estimator 的更准确的反馈信号(Konda和Tsitsiklis, 2000)。

2.2 Value Iteration Module 价值迭代（VI）模型
Tamar等人(2016)通过观察导航和更一般的寻路问题发明了VI模型,VI模型可以展开为一个图卷积网络,节点是智能体可能的位置，边代表根据智能体的行为产生可能的转换。在简单例子中：二维网格，图形结构对应于二维空间中的一个邻域，卷积结构类似于一个将整个二维环境作为输入的卷积网络。

更准确地说，用 $s$ 表示当前环境的观测值（例如二维网格的鸟瞰图) $q^0$ 是 $A, d_x, d_y)$ 的零向量， $d_x, d_y$ 代表二维网格的两个向量，A是智能体的动作数。价值迭代模块由一个嵌入函数定义， $\in\mathbb{R}^{d_{rew}×d_x×d_y}$ ，其中 $d_{rew}$ 由模型决定 ,转移函数 $h$ （状态转移函数？）,并执行下列步骤计算 $k = 1 . . . K, K$ 为VI模块的深度:
$\begin{aligned} ∀(i, j) ∈ [ [d_x] ] × [ [d_y] ], v_{ij}^k&=\max_{a=1..A}q_{a,i,j}^k,\\ q^k&= h(Φ(s), v^{k−1})\\\end{aligned}$
控制策略 $π$ 定义为 $π(s,(x_0, y_0)) =\argmax_{a=1..A}q_{a,x_0,y_0}^K，(x_0, y_0)$ 是智能体的位置，我们可以把转移函数 $h$ 写成卷积层