LEARNING TO NAVIGATE IN COMPLEX ENVIRONMENTS 阅读笔记

LEARNING TO NAVIGATE IN COMPLEX ENVIRONMENTS 阅读笔记

简要介绍:

  • 主要内容:本文主要介绍了一种在复杂环境中导航的深度增强学习的方法,并且表明通过添加辅助任务可以大大提高学习效率和学习效果
  • 主要贡献:主要针对“如何提高增强学习的学习效率”的问题提出了一种可行的优化方法并对其进行分析
  • 作者演讲
  • 文章展示视频

方法

这里写图片描述

整个过程可以看作一个走迷宫的游戏

  • 首先有一个随机的起始点

  • 找到目标点+10分作为奖励机制

  • 到达目标点的同时,将主体(可以看作机器人)随机移动到地图中某个位置

  • 开始重新寻找目标点,其中路上会有苹果、草莓等物体作为小奖励(分别+1,+2)

  • 动作是连续的,不过每一次行动有8种:分别为微量旋转(左右),水平四个方向的加速以及旋转加速度(左右)

  • 有三种地图:如上图的5X10,9X15和I形状的迷宫

测试的四种网络结构,前三个用于对比,本文主要提出最后一种结构:

这里写图片描述
- 包含一个卷积网络
- 包含Stacked LSTM
- 附加的输入(奖励、上一次的动作和速度)
- 两个附加任务:1)深度预测 2)回环预测

这里写图片描述
Nav A3C+D+L+Dr的详细框架图:使用RGB图像,上一次的奖励,上一次的动作和当前的主体速度作为输入,输出策略,评价函数,深度预测和回环检测

实验结果

左边为深度预测(真值和预测深度)右边为回环检测(灰色表示轨迹,蓝色表示正确输出,红色表示监测出了假的回环,绿色表示漏掉了回环)
左边为深度预测(真值和预测深度)右边为回环检测(灰色表示轨迹,蓝色表示正确输出,红色表示监测出了假的回环,绿色表示漏掉了回环)

蓝色深浅表示所处位置的概率,从开始初始位置(最左),往右依次通过运动信息来增加位置预测的准确度。注:此处的位置是将地图离散化为5x10,9x15个方格,预测所处的方格位置
蓝色深浅表示所处位置的概率,从开始初始位置(最左),往右依次通过运动信息来增加位置预测的准确度。注:此处的位置是将地图离散化为5x10,9x15个方格,预测所处的方格位置

结果显示:有附加任务的学习效率和学习结果都有很大的提高,并且不同的附加任务有不同的促进效果
结果显示:有附加任务的学习效率和学习结果都有很大的提高,并且不同的附加任务有不同的促进效果

实验的数据分析结果
最终的实验的数据分析结果

总结

  • 提出了一种导航的深度增强学习方法,可以适应不同起点和目的地的导航
  • 结果表明辅助任务(深度和回环)能够帮助提供更加丰富数据和信号用于加速训练
  • 结合复杂的视觉环境和外部存储来增强导航能力是一个很重要的方向
  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值