LEARNING TO NAVIGATE IN COMPLEX ENVIRONMENTS 阅读笔记

最新推荐文章于 2023-02-13 12:00:34 发布

mrhcat

最新推荐文章于 2023-02-13 12:00:34 发布

阅读量1.8k

点赞数 1

分类专栏：阅读笔记文章标签：增强学习视觉导航

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mrhcat/article/details/71267200

版权

阅读笔记专栏收录该内容

5 篇文章 0 订阅

订阅专栏

LEARNING TO NAVIGATE IN COMPLEX ENVIRONMENTS 阅读笔记

简要介绍：

主要内容：本文主要介绍了一种在复杂环境中导航的深度增强学习的方法，并且表明通过添加辅助任务可以大大提高学习效率和学习效果
主要贡献：主要针对“如何提高增强学习的学习效率”的问题提出了一种可行的优化方法并对其进行分析
作者演讲
文章展示视频

方法

这里写图片描述

整个过程可以看作一个走迷宫的游戏

首先有一个随机的起始点
找到目标点+10分作为奖励机制
到达目标点的同时，将主体（可以看作机器人）随机移动到地图中某个位置
开始重新寻找目标点，其中路上会有苹果、草莓等物体作为小奖励（分别+1，+2）
动作是连续的，不过每一次行动有8种：分别为微量旋转（左右），水平四个方向的加速以及旋转加速度（左右）
有三种地图：如上图的5X10,9X15和I形状的迷宫

测试的四种网络结构，前三个用于对比，本文主要提出最后一种结构：

这里写图片描述
- 包含一个卷积网络
- 包含Stacked LSTM
- 附加的输入（奖励、上一次的动作和速度）
- 两个附加任务：1）深度预测 2）回环预测

这里写图片描述
Nav A3C+D+L+Dr的详细框架图：使用RGB图像，上一次的奖励，上一次的动作和当前的主体速度作为输入，输出策略，评价函数，深度预测和回环检测

实验结果

左边为深度预测（真值和预测深度）右边为回环检测（灰色表示轨迹，蓝色表示正确输出，红色表示监测出了假的回环，绿色表示漏掉了回环）

蓝色深浅表示所处位置的概率，从开始初始位置（最左），往右依次通过运动信息来增加位置预测的准确度。注：此处的位置是将地图离散化为5x10,9x15个方格，预测所处的方格位置

结果显示：有附加任务的学习效率和学习结果都有很大的提高，并且不同的附加任务有不同的促进效果

最终的实验的数据分析结果

总结

提出了一种导航的深度增强学习方法，可以适应不同起点和目的地的导航
结果表明辅助任务（深度和回环）能够帮助提供更加丰富数据和信号用于加速训练
结合复杂的视觉环境和外部存储来增强导航能力是一个很重要的方向

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
2
评论
LEARNING TO NAVIGATE IN COMPLEX ENVIRONMENTS 阅读笔记

LEARNING TO NAVIGATE IN COMPLEX ENVIRONMENTS 阅读笔记简要介绍：主要内容：本文主要介绍了一种在复杂环境中导航的深度增强学习的方法，并且表明通过添加辅助任务可以大大提高学习效率和学习效果
复制链接

扫一扫

专栏目录

mrhcat CSDN认证博客专家 CSDN认证企业博客

码龄13年

10: 原创

32万+: 周排名

58万+: 总排名

2万+: 访问

: 等级

421: 积分

17: 粉丝

20: 获赞

5: 评论

62: 收藏

私信

关注

热门文章

分类专栏

CTF 1篇
阅读笔记 5篇
opencv配置 1篇
问题总结 3篇
mavros 1篇
ros 1篇
控制 2篇
电脑配置 2篇
代码阅读 1篇
SLAM 2篇

最新评论

机器人位置控制-P/PI+
爱学习的粉猪猪: 请问为什么前馈不能加100%呢
机器人位置控制-P/PI+
Maverick..: 想问一下楼主这个理论知识是在哪本书？
LEARNING TO NAVIGATE IN COMPLEX ENVIRONMENTS 阅读笔记
御前上等: 机器视觉
LEARNING TO NAVIGATE IN COMPLEX ENVIRONMENTS 阅读笔记
猪蒙索洛夫: 楼主在吗？这个动态迷宫中随机目标这一块我没太看懂。。。。网络本身不是target-driven，就算训练多次可以实现在迷宫中自行定位了，但是target一旦随机了不就是等价于瞎摸索吗？
Auto Disturbances Rejection Control (ADRC) Technique阅读
勤劳的小乌龟: 大佬能和你交流一下吗，参数是怎么调节的

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。