LEARNING TO NAVIGATE IN COMPLEX ENVIRONMENTS 阅读笔记
简要介绍:
- 主要内容:本文主要介绍了一种在复杂环境中导航的深度增强学习的方法,并且表明通过添加辅助任务可以大大提高学习效率和学习效果
- 主要贡献:主要针对“如何提高增强学习的学习效率”的问题提出了一种可行的优化方法并对其进行分析
- 作者演讲
- 文章展示视频
方法
整个过程可以看作一个走迷宫的游戏
首先有一个随机的起始点
找到目标点+10分作为奖励机制
到达目标点的同时,将主体(可以看作机器人)随机移动到地图中某个位置
开始重新寻找目标点,其中路上会有苹果、草莓等物体作为小奖励(分别+1,+2)
动作是连续的,不过每一次行动有8种:分别为微量旋转(左右),水平四个方向的加速以及旋转加速度(左右)
有三种地图:如上图的5X10,9X15和I形状的迷宫
测试的四种网络结构,前三个用于对比,本文主要提出最后一种结构:
- 包含一个卷积网络
- 包含Stacked LSTM
- 附加的输入(奖励、上一次的动作和速度)
- 两个附加任务:1)深度预测 2)回环预测
Nav A3C+D+L+Dr的详细框架图:使用RGB图像,上一次的奖励,上一次的动作和当前的主体速度作为输入,输出策略,评价函数,深度预测和回环检测
实验结果
左边为深度预测(真值和预测深度)右边为回环检测(灰色表示轨迹,蓝色表示正确输出,红色表示监测出了假的回环,绿色表示漏掉了回环)
蓝色深浅表示所处位置的概率,从开始初始位置(最左),往右依次通过运动信息来增加位置预测的准确度。注:此处的位置是将地图离散化为5x10,9x15个方格,预测所处的方格位置
结果显示:有附加任务的学习效率和学习结果都有很大的提高,并且不同的附加任务有不同的促进效果
最终的实验的数据分析结果
总结
- 提出了一种导航的深度增强学习方法,可以适应不同起点和目的地的导航
- 结果表明辅助任务(深度和回环)能够帮助提供更加丰富数据和信号用于加速训练
- 结合复杂的视觉环境和外部存储来增强导航能力是一个很重要的方向