[CV] 基于机器视觉和强化学习的导航

本文学习CVPR 2019 论文:

 

1.Abstract

作者提出视觉导航是目前很火的一个方向,然后提出了基于自然语言理解的导航

提到了几个名词:

VLN : Vision-language navigation

VLN的定义是,让一个机器可以在一个真实的3D环境中执行自然语言的指令并执行导航

RL : reinforcement learning 强化学习

RCM : Reinforced Cross-Modal Matching

作者提出了一种自主监督模仿的学习方法 SIL : Self-Superviserd Imitation Learning  来使得机器基于过去的

经验在陌生环境下做出决策,这种方法据作者所说将见过的和没有见过的环境下机器人的导航表现差异由30%降到10%

这里有一个疑问,作者提到:

Evaluation on a VLN
benchmark dataset shows that our RCM model significantly
outperforms previous methods by 10% on SPL and achieves
the new state-of-the-art performance.

那么SPL是什么?

2.Introduction & Related Work

2.1 Introduction

本文是结合强化学习(Reinforcement Learning)(RL) 和模仿学习(Imitation learning)(IL) 提出了一个新的强化学习模型

RCM -(Reinforcement Cross-Modal Matching)

设计了一个reasoning navigator 学习这种跨模型(基于textual instruction & visual scence 训练(grounding))

并设计了一个matching critic 来评估已经执行过的路径,通过计算 重新建立新的路径时,仍然会选择这条路径的 概率

将这种机制称为 cycle-reconstruction reward mechanism 循环重建的奖励机制

通过奖励对语言输入更好的路径,惩罚不好的路径,就可以让机器人有更好的路径规划

例如,图中的B路径比C路径更好:

使用内在的训练机制 (matching critic)得到的intrinsic reward 和从外界环境 得到的外界环境奖励(extrinsic reward)

推断器 reasoning navigator 就能够学会从将输入的自然语言指令 基于两个方面进行综合分析和执行:

  1.  local spatial visual scene  实况情景,如具体在某个房间看到的情景
  2.  Global temporal visual trajectory 总体路线规划

为了缩小目前机器人对于已经见过和没有见过的场景之下表现的巨大沟鸿,科研团队提出了一种 新方法:

Self-Supervised Imitation Learning (SIL) method,用来提高机器人在没有见过的新情况下的应变能力

这套机制是一种非常有效的可以让机器人终生学的机制,有效的路径规划会被记录下来,以供以后使用

总结一下:这篇文章的研究可以分为三层:

  1. 提出一种新的跨类型输入的强化学习模型 : Reinforced Cross-Model Matching (RCM)
  2. 经过R2R数据集测试发现这种模型是目前最高水平
  3. 提出了一种自监督学习算法:Self-Supervised Imitation Learning (SIL),并给VLN算法提供了一个新的指标- exploring unseen environment

2.2 Related Work

2.2.1 Vision-and-language Grounding

提到了过去的研究都是静态的视频输入和文字描述,这个团队做的是动态的真实环境的输入和描述

2.2.2 Embodied Navigation Agent

前人Wang提出了融合无模型和有模型的强化学习方法来增强泛化能力

前人Fried还提出了适应数据增长、全景空间、束搜索(beam search ?不懂)的方法

研究团队基于前人的工作,提出了RCM模型

RCM模型主要是基于Fried的模型修改得来,改进:

  1. 将奖赏机制由单一变为多元
  2. RCM是跨模型训练,之前的为单一模型输入训练
  3. matching critic的设计是参照Fried的speaker-follower model模型做出的,改进在于maching critic可以为研究者们设计的新的两个训练过程RL(强化学习过程)和SIL(自监督学习过程)提供循环重建(cycle-reconstrcution)的奖励,Speaker模型用来为强化学习增大数据集(augment training data)

2.2.3 Exploration

基于前人的自己模仿自己的学习方法的研究:

研究团队提出了 Self-Supervised Imitation Learning (SIL) method

(之前的研究是基于游戏环境进行测试的)

3. Reinforced Cross-Model Matching

开始正式介绍这个模型RCM

3.1 Overview

 

3.2 Model

3.2.1 Cross-Modal Reasoning Navigator

 

3.2.2 Cross-Model Matching Critic

 

3.3 Learning

 

 

 

 

 

 

 

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
【资源说明】 基于ROS和深度强化学习不同算法的移动机器人导航避障python源码+使用详细说明.zip 要求 python 3.5 Tensorflow 1.14.0 ROS Melodic 使用步骤 因为有未知问题,需要把小车在gazebo中的启动,与tesorflow强化学习分开成两个文件夹,合在一起会报错 ## 1.创建虚拟环境 NDDDQN ## 2.安装tensorflow ``` pip install tensorflow-gpu==1.14.0 -i https://pypi.tuna.tsinghua.edu.cn/simple ``` ## 3.在两个工作空间进行编译 在catkin_ws和catkin_ws1分别编译: ``` catkin_make --cmake-args \ -DCMAKE_BUILD_TYPE=Release \ -DPYTHON_EXECUTABLE=/usr/bin/python3 \ -DPYTHON_INCLUDE_DIR=/usr/include/python3.6m \ -DPYTHON_LIBRARY=/usr/lib/x86_64-linux-gnu/libpython3.6m.so ``` ## 4.运行 首先在运行小车的catkin_ws1文件夹中: ``` cd catkin_ws1 source devel/setup.sh roslaunch pioneer_utils xxx ``` xxx对应运行环境: ``` bizhang.launch 静态避障 ​ daohang.launch 静态导航 ​ dongtai.launch 动态导航 ​ keyboard_teleop.launch 键盘控制 ``` 然后在运行强化学习的文件夹catkin_ws中: ``` conda activate NDDDQN cd catkin_ws source devel/setup.sh cd src/Tensorflow/xxx python main.py ``` xxx对应运行算法: ``` DQN-bizhang 静态避障-DQN ​ DDQN-bizhang 静态避障-DDQN ​ DQN-Dueling-bizhang 静态避障-Dueling-DQN ​ DDQN-Dueling-bizhang 静态避障-Dueling-DDQN ​ NDDQN-Dueling-bizhang 静态避障-Dueling-NDDQN ​ Beta-DDQN-Dueling-bizhang 静态避障-Beta-Dueling-DDQN ​ Empty-Navigation 静态导航-Dueling-NDDQN ​ separate-Empty-Navigation 静态导航-separate-Dueling-NDDQN ​ Navigation-DDQN 静态导航-DDQN ​ people-Navigation 动态导航-Dueling-NDDQN ``` 【备注】 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载使用,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可直接用于毕设、课设、作业等。 欢迎下载,沟通交流,互相学习,共同进步!

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值