本文学习CVPR 2019 论文:
1.Abstract
作者提出视觉导航是目前很火的一个方向,然后提出了基于自然语言理解的导航
提到了几个名词:
VLN : Vision-language navigation
VLN的定义是,让一个机器可以在一个真实的3D环境中执行自然语言的指令并执行导航
RL : reinforcement learning 强化学习
RCM : Reinforced Cross-Modal Matching
作者提出了一种自主监督模仿的学习方法 SIL : Self-Superviserd Imitation Learning 来使得机器基于过去的
经验在陌生环境下做出决策,这种方法据作者所说将见过的和没有见过的环境下机器人的导航表现差异由30%降到10%
这里有一个疑问,作者提到:
Evaluation on a VLN
benchmark dataset shows that our RCM model significantly
outperforms previous methods by 10% on SPL and achieves
the new state-of-the-art performance.
那么SPL是什么?
2.Introduction & Related Work
2.1 Introduction
本文是结合强化学习(Reinforcement Learning)(RL) 和模仿学习(Imitation learning)(IL) 提出了一个新的强化学习模型
RCM -(Reinforcement Cross-Modal Matching)
设计了一个reasoning navigator 学习这种跨模型(基于textual instruction & visual scence 训练(grounding))
并设计了一个matching critic 来评估已经执行过的路径,通过计算 重新建立新的路径时,仍然会选择这条路径的 概率
将这种机制称为 cycle-reconstruction reward mechanism 循环重建的奖励机制
通过奖励对语言输入更好的路径,惩罚不好的路径,就可以让机器人有更好的路径规划
例如,图中的B路径比C路径更好:
使用内在的训练机制 (matching critic)得到的intrinsic reward 和从外界环境 得到的外界环境奖励(extrinsic reward)
推断器 reasoning navigator 就能够学会从将输入的自然语言指令 基于两个方面进行综合分析和执行:
- local spatial visual scene 实况情景,如具体在某个房间看到的情景
- Global temporal visual trajectory 总体路线规划
为了缩小目前机器人对于已经见过和没有见过的场景之下表现的巨大沟鸿,科研团队提出了一种 新方法:
Self-Supervised Imitation Learning (SIL) method,用来提高机器人在没有见过的新情况下的应变能力
这套机制是一种非常有效的可以让机器人终生学的机制,有效的路径规划会被记录下来,以供以后使用
总结一下:这篇文章的研究可以分为三层:
- 提出一种新的跨类型输入的强化学习模型 : Reinforced Cross-Model Matching (RCM)
- 经过R2R数据集测试发现这种模型是目前最高水平
- 提出了一种自监督学习算法:Self-Supervised Imitation Learning (SIL),并给VLN算法提供了一个新的指标- exploring unseen environment
2.2 Related Work
2.2.1 Vision-and-language Grounding
提到了过去的研究都是静态的视频输入和文字描述,这个团队做的是动态的真实环境的输入和描述
2.2.2 Embodied Navigation Agent
前人Wang提出了融合无模型和有模型的强化学习方法来增强泛化能力
前人Fried还提出了适应数据增长、全景空间、束搜索(beam search ?不懂)的方法
研究团队基于前人的工作,提出了RCM模型
RCM模型主要是基于Fried的模型修改得来,改进:
- 将奖赏机制由单一变为多元
- RCM是跨模型训练,之前的为单一模型输入训练
- matching critic的设计是参照Fried的speaker-follower model模型做出的,改进在于maching critic可以为研究者们设计的新的两个训练过程RL(强化学习过程)和SIL(自监督学习过程)提供循环重建(cycle-reconstrcution)的奖励,Speaker模型用来为强化学习增大数据集(augment training data)
2.2.3 Exploration
基于前人的自己模仿自己的学习方法的研究:
研究团队提出了 Self-Supervised Imitation Learning (SIL) method
(之前的研究是基于游戏环境进行测试的)
3. Reinforced Cross-Model Matching
开始正式介绍这个模型RCM
3.1 Overview
3.2 Model
3.2.1 Cross-Modal Reasoning Navigator
3.2.2 Cross-Model Matching Critic
3.3 Learning