[CV] 基于机器视觉和强化学习的导航

最新推荐文章于 2022-10-28 13:12:28 发布

kikook

最新推荐文章于 2022-10-28 13:12:28 发布

阅读量2.5k

点赞数 1

分类专栏：计算机视觉计算机视觉

本文链接：https://blog.csdn.net/chenhanxuan1999/article/details/99302707

版权

计算机视觉同时被 2 个专栏收录

11 篇文章 0 订阅

订阅专栏

计算机视觉

1 篇文章 0 订阅

订阅专栏

本文学习CVPR 2019 论文：

1.Abstract

作者提出视觉导航是目前很火的一个方向，然后提出了基于自然语言理解的导航

提到了几个名词：

VLN : Vision-language navigation

VLN的定义是，让一个机器可以在一个真实的3D环境中执行自然语言的指令并执行导航

RL : reinforcement learning 强化学习

RCM : Reinforced Cross-Modal Matching

作者提出了一种自主监督模仿的学习方法 SIL : Self-Superviserd Imitation Learning 来使得机器基于过去的

经验在陌生环境下做出决策，这种方法据作者所说将见过的和没有见过的环境下机器人的导航表现差异由30%降到10%

这里有一个疑问，作者提到：

Evaluation on a VLN
benchmark dataset shows that our RCM model significantly
outperforms previous methods by 10% on SPL and achieves
the new state-of-the-art performance.

那么SPL是什么？

2.Introduction & Related Work

2.1 Introduction

本文是结合强化学习(Reinforcement Learning)(RL) 和模仿学习(Imitation learning)(IL) 提出了一个新的强化学习模型

RCM -(Reinforcement Cross-Modal Matching)

设计了一个reasoning navigator 学习这种跨模型（基于textual instruction & visual scence 训练(grounding)）

并设计了一个matching critic 来评估已经执行过的路径，通过计算重新建立新的路径时，仍然会选择这条路径的概率

将这种机制称为 cycle-reconstruction reward mechanism 循环重建的奖励机制

通过奖励对语言输入更好的路径，惩罚不好的路径，就可以让机器人有更好的路径规划

例如，图中的B路径比C路径更好：

使用内在的训练机制 (matching critic)得到的intrinsic reward 和从外界环境得到的外界环境奖励(extrinsic reward)

推断器 reasoning navigator 就能够学会从将输入的自然语言指令基于两个方面进行综合分析和执行：

local spatial visual scene 实况情景，如具体在某个房间看到的情景
Global temporal visual trajectory 总体路线规划

为了缩小目前机器人对于已经见过和没有见过的场景之下表现的巨大沟鸿，科研团队提出了一种新方法：

Self-Supervised Imitation Learning (SIL) method，用来提高机器人在没有见过的新情况下的应变能力

这套机制是一种非常有效的可以让机器人终生学的机制，有效的路径规划会被记录下来，以供以后使用

总结一下：这篇文章的研究可以分为三层：

提出一种新的跨类型输入的强化学习模型： Reinforced Cross-Model Matching (RCM)
经过R2R数据集测试发现这种模型是目前最高水平
提出了一种自监督学习算法：Self-Supervised Imitation Learning (SIL)，并给VLN算法提供了一个新的指标- exploring unseen environment

2.2 Related Work

2.2.1 Vision-and-language Grounding

提到了过去的研究都是静态的视频输入和文字描述，这个团队做的是动态的真实环境的输入和描述

2.2.2 Embodied Navigation Agent

前人Ｗａｎｇ提出了融合无模型和有模型的强化学习方法来增强泛化能力

前人Ｆｒｉｅｄ还提出了适应数据增长、全景空间、束搜索(beam search ？不懂)的方法

研究团队基于前人的工作，提出了ＲＣＭ模型

RCM模型主要是基于Ｆｒｉｅｄ的模型修改得来，改进：

将奖赏机制由单一变为多元
ＲＣＭ是跨模型训练，之前的为单一模型输入训练
ｍａｔｃｈｉｎｇｃｒｉｔｉｃ的设计是参照Ｆｒｉｅｄ的speaker-follower model模型做出的，改进在于maching critic可以为研究者们设计的新的两个训练过程ＲＬ（强化学习过程）和ＳＩＬ（自监督学习过程）提供循环重建（cycle-reconstrcution）的奖励，Speaker模型用来为强化学习增大数据集(augment training data)

2.2.3 Exploration

基于前人的自己模仿自己的学习方法的研究：

研究团队提出了　Self-Supervised Imitation Learning (SIL) method

（之前的研究是基于游戏环境进行测试的）

3. Reinforced Cross-Model Matching

开始正式介绍这个模型ＲＣＭ

3.1 Overview

3.2 Model

3.2.1 Cross-Modal Reasoning Navigator

3.2.2 Cross-Model Matching Critic

3.3 Learning

kikook

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
[CV] 基于机器视觉和强化学习的导航

本文学习CVPR 2019 论文：1.Abstract作者提出视觉导航是目前很火的一个方向，然后提出了基于自然语言理解的导航提到了几个名词：VLN : Vision-language navigationVLN的定义是，让一个机器可以在一个真实的3D环境中执行自然语言的指令并执行导航RL : reinforcement learning 强化学习RCM :...
复制链接

扫一扫