Look Before You Leap: Bridging Model-Free and Model-Based Reinforcement Learning

Look Before You Leap: Bridging Model-Free and Model-Based Reinforcement Learning for Planned-Ahead Vision-and-Language Navigation,ECCV 2018

Abstract
  • 翻译:现在的基于视觉和语言定位的机器人导航研究,大多关注在合成环境中提高model-free深度强化学习模型。然而,基于model-free的深度强化学习模型并没有考虑到真实环境中的动态因素,他们也不能泛化到新的场景中。在这篇文行中,我们使用一种基本的方法在gap中建立了桥梁,将在合成场景中学习和在真实场景中实践结合在一起。我们提出了一种全新的、杂交的强化学习模型,将model-free和model-based这两大类强化学习联合在一起,解决在真实世界中进行vision-language navigation的任务。我们的look-ahead模型使一个可以预测下一状态和对应奖励的环境模型与策略模型结合。实验结果证明了我们提出方法的有效性,在真实场景数据集Room-to-Room上。另外,我们的可拓展的模型在迁移到无法提前看到的环境中也通用。

  • Model-free RL:不对环境进行建模,直接寻找在状态 s s s下,动作 a 和 奖 励 a和奖励 aR$之间的关系,比如q-learning。

  • Model-based RL:对环境进行建模,通过环境估计状态 s 1 s_1 s1下执行动作 a a a可得到的新状态 s 2 s_2 s2和奖励 r r r

Motivation

之前的解决VLN的模型大多基于model-free强化学习方法,训练智能体直接由原始观测到的画面映射到要进行的动作或者状态动作函数。这样的方法无法考虑到环境中存在的动态因素,且需要大量的训练数据。而且,仅适用于合成的虚拟环境中,简化了环境中的视觉噪音问题和语义丰富程度。因此,本文使用model-based强化学习对环境进行模拟,预测接下来要发生的动作,提前做计划,避免无效的trial-and-error。因此,本文提出了RPA模型,是model-free和model-based模型的综合体。该模型在R2R数据集上达到了sota,且更具有泛化能力和可拓展性,尤其是迁移到无法提前看到的环境中。

Framework
  • RPA架构由model-free路径和model-based path组成,最终通过Action Predictor(使用带softmax的多层感知器实现)综合考虑两条path信息计算下一步采取动作的分布。
  • 其中,Model-free路径的Policy Model使用带attention的LSTM解码器实现,可以完成状态到动作的映射,而model-based路径使用多个Look-Ahead模型并列并将结果进行聚合后获得动作分布。
  • 这其中的Look-Ahead模型中包括Env Model,可以对环境进行模拟,以预测当前状态下,下一状态(预测下一观测画面较难,改为预测下一帧画面提取后的特征信息)和对应奖励的分布。具体实现如下图所示:即先将状态和动作都使用映射层进行映射,然后使用转移层预测下一状态,使用奖励层计算对应的奖励。
  • 状态空间包括agent的空间位置、摆头角度和仰头角度。
  • 动作空间包括turn left、turn right、camera up、camera down、move forward、stop。
  • 评价指标包括成功率 P s u c c P_{succ} Psucc,成功到达终点范围内指定区域百分比,和最终导航偏差 E n a v E_{nav} Enav,终点距离目标点的距离。
  • 训练时,首先训练env model,然后固定之训练增强的policy model。注意,训练policy时,有两种监督信息:一种是纯监督学习,使用simulator获得的标注的动作作为标注信息,最大化操作动作的对数似然函数。另一种是强化学习,使用累积奖励函数训练,奖励函数定义为当前状态距离target的距离减去下一状态距离target的距离,距离target越近,奖励越大,正的,而距离target越远时奖励为负。
Experiment
  • 对于每条轨迹的输出,包括导航偏差navigation error(NE),成功率success rate(SR)和oracle成功率(OSR),即路径上所有点中距离target点最近的点和target点之间的距离,虽然它可能不是最终停止的点。还输出了trajectory length(TL),路径的轨迹长度。

<img src=" #pic_center" width=“60%”>

  • 实验结果表明,使用student-forcing比teacher-forcing对训练更有帮助。而使用model-free RL方法比仅有监督学习的模型效果要好,而再与RPA对比,说明添加model-based path对结果有提高。模型的最终效果展示:
  • 可以发现,动作up和down几乎没有出现在动作序列中,这说明了R2R数据集的动作设置时,考虑机器人的左右摆头角度可能并没有很大贡献。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值