Learning exploration policies for navigation
任务驱动的导航问题已经得到较好的解决,但是如何有效地探索一个新环境,这就是本文关注的点。
本文主要研究了行动体在没有任务奖励的情况下自主探索3D环境。提出一种基于学习的方法,并研究了不同的策略架构、奖励函数和训练模式。
简单介绍一下 导航:
· 基于几何重构和路径规划的方法:
基于SLAM的方法,首先构建地图,然后使用定位和路径规划进行导航。但是如何构建地图呢,当前的方法或者使用人类操作员来控制机器人来构建地图。
· 基于学习的方法:
对于使用学习的方法,大多数只学习特定任务的策略。而且对于这种方法,训练时和测试时的探索都很重要。
对于这两种方法探索策略就是一个大瓶颈,对于任务无关的策略,它探索环境以构建地图或样本轨迹,从而以高效采样的方式学习导航策略。所以如何学习这种独立于任务的策略?
·使用强化学习的方法学习内在奖励。探索过程中定义预测误差为奖励,然后重复访问做一个惩罚。
虽然这看起来是一种有效的奖励,但这种方法仍然是低效的,因为黑盒奖励函数不能被区分来有效地计算梯度。
所以本文从 结构设计、奖励函数设计、奖励优化三个角度来提出一种基于学习得导航探索策略的方法。
相关工作
经典机器人学中的导航
传统的导航方法是通过构建环境地图,在地图中定位行动体,然后规划路径将行动体传送到所需的目标位置。然后定位建图、路径规划也有很多研究,但是大部分研究都是被动的SLAM。而主动SLAM(如何自动遍历一个新的环境来构建空间表示)的研究还是比较少的。部分可观测马尔可夫决策过程Partially Observable Markov Decision Processes (POMDPs)或者选择减少估计地图不确定性的行动
虽然这些公式能够进行理论分析,但它们主要依赖传感器来构建地图和定位,因此,这种方法对测量噪声非常敏感。此外,这种方法将探索纯粹视为几何问题,完全忽略了探索的语义线索。
导航学习
很多研究在比较不同的网络结构,如:前馈网络、空间记忆和规划模块,半参数拓扑记忆等。
比较不同的训练范式,如:模仿学习、强化学习、学习逆动力学模型等。
而本文就借鉴了之前的工作,策略架构和奖励定义就使用了空间记忆来实现长期的探索,并且模仿人类探索来引导策略的学习。但不依赖外在定义的奖励信号进行训练。
导航探索
最近有关探索的研究往往和强化学习联系起来。通过设计内在的奖励函数来获取状态或状态-动作转换 的新奇。然后通过使用强化学习优化这些奖励函数来学习探索策略。而本文和这些工作也非常相似,
本文的方法
设定的场景为行动体在一个未知的新环境,并且想学习一种探索策略,使这个行动体能够有效地探索这个新环境。对新环境的成功探索应该使行动体能够在新环境中高效地完成任务。
而本文工作的关键就是 :
· 策略的设计
· 奖励函数的设计
· 使用专家演示来加速策略的训练
地图的构建
本文的地图构建主要使用深度相机采集的数据。
假设行动体在 t t t时刻对其当前未知的估计是 x ^ t \hat{x}_t x^t,该时刻的动作定为 a t a_t