[论文笔记]Learning exploration policies for navigation

最新推荐文章于 2024-06-02 23:19:28 发布

CwwwwS

最新推荐文章于 2024-06-02 23:19:28 发布

阅读量1.3k

点赞数 1

分类专栏：笔记文章标签：计算机视觉人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43146899/article/details/122305995

版权

Learning exploration policies for navigation

任务驱动的导航问题已经得到较好的解决，但是如何有效地探索一个新环境，这就是本文关注的点。

本文主要研究了行动体在没有任务奖励的情况下自主探索3D环境。提出一种基于学习的方法，并研究了不同的策略架构、奖励函数和训练模式。

视频和代码

简单介绍一下导航：

· 基于几何重构和路径规划的方法：

基于SLAM的方法，首先构建地图，然后使用定位和路径规划进行导航。但是如何构建地图呢，当前的方法或者使用人类操作员来控制机器人来构建地图。

· 基于学习的方法：

对于使用学习的方法，大多数只学习特定任务的策略。而且对于这种方法，训练时和测试时的探索都很重要。

对于这两种方法探索策略就是一个大瓶颈，对于任务无关的策略，它探索环境以构建地图或样本轨迹，从而以高效采样的方式学习导航策略。所以如何学习这种独立于任务的策略？

·使用强化学习的方法学习内在奖励。探索过程中定义预测误差为奖励，然后重复访问做一个惩罚。

虽然这看起来是一种有效的奖励，但这种方法仍然是低效的，因为黑盒奖励函数不能被区分来有效地计算梯度。

所以本文从结构设计、奖励函数设计、奖励优化三个角度来提出一种基于学习得导航探索策略的方法。

相关工作

经典机器人学中的导航

传统的导航方法是通过构建环境地图，在地图中定位行动体，然后规划路径将行动体传送到所需的目标位置。然后定位建图、路径规划也有很多研究，但是大部分研究都是被动的SLAM。而主动SLAM（如何自动遍历一个新的环境来构建空间表示）的研究还是比较少的。部分可观测马尔可夫决策过程Partially Observable Markov Decision Processes (POMDPs)或者选择减少估计地图不确定性的行动

虽然这些公式能够进行理论分析，但它们主要依赖传感器来构建地图和定位，因此，这种方法对测量噪声非常敏感。此外，这种方法将探索纯粹视为几何问题，完全忽略了探索的语义线索。

导航学习

很多研究在比较不同的网络结构，如：前馈网络、空间记忆和规划模块，半参数拓扑记忆等。

比较不同的训练范式,如：模仿学习、强化学习、学习逆动力学模型等。

而本文就借鉴了之前的工作，策略架构和奖励定义就使用了空间记忆来实现长期的探索，并且模仿人类探索来引导策略的学习。但不依赖外在定义的奖励信号进行训练。

导航探索

最近有关探索的研究往往和强化学习联系起来。通过设计内在的奖励函数来获取状态或状态-动作转换的新奇。然后通过使用强化学习优化这些奖励函数来学习探索策略。而本文和这些工作也非常相似，

本文的方法

设定的场景为行动体在一个未知的新环境，并且想学习一种探索策略，使这个行动体能够有效地探索这个新环境。对新环境的成功探索应该使行动体能够在新环境中高效地完成任务。

而本文工作的关键就是：

· 策略的设计

· 奖励函数的设计

· 使用专家演示来加速策略的训练

地图的构建

本文的地图构建主要使用深度相机采集的数据。

假设行动体在 $t$ 时刻对其当前未知的估计是 $\hat{x}_t$ ，该时刻的动作定为 $a_t$

最低0.47元/天解锁文章

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
[论文笔记]Learning exploration policies for navigation

Learning exploration policies for navigation任务驱动的导航问题已经得到较好的解决，但是如何有效地探索一个新环境，这就是本文关注的点。本文主要研究了行动体在没有任务奖励的情况下自主探索3D环境。提出一种基于学习的方法，并研究了不同的策略架构、奖励函数和训练模式。视频和代码简单介绍一下导航：· 基于几何重构和路径规划的方法：基于SLAM的方法，首先构建地图，然后使用定位和路径规划进行导航。但是如何构建地图呢，当前的方法或者使用人类操作员来控制机器人来构建
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。