[论文笔记]Reinforcement learning helps slam: Learning to build maps

最新推荐文章于 2024-08-24 07:08:56 发布

CwwwwS

最新推荐文章于 2024-08-24 07:08:56 发布

阅读量826

点赞数

分类专栏：笔记文章标签：机器学习自动驾驶算法

本文链接：https://blog.csdn.net/weixin_43146899/article/details/122051075

版权

本文探讨了使用强化学习（RL）改进SLAM（Simultaneous Localization And Mapping），通过RL代理学习最优行动序列以高效探索未知环境并构建地图。对比了不同奖励函数和RL方法（DQN和DRQN）对结果的影响，实验表明RL在构建地图任务中展现出潜力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Reinforcement learning helps slam: Learning to build maps

本文使用强化学习来探索未知环境以及重建地图。对比了三种不同的奖励函数，同时对比了三种不同的基于RL的路径规划器的性能。

INTRODUCTION

对于未知环境（没有任何现有地图）研究人员开始在这些机器人上开发更多的智能来探索环境，而不是遵循在已知环境中研究的预先定义的路径。以便导航未知环境并共同构建环境地图，当SLAM算法用于实时主动规划机器人路径，同时构建环境地图时，SLAM算法被命名为主动SLAM ，由Trivun等人在2015年提出。

到目前为止，最广泛使用的主动SLAM方法被称为基于边界的勘探(Yamauchi，1997)，该方法通过简单地观察所选边界(即地图上已知和未知区域之间的区域)是否通向被占用的空间来产生控制信号。然而，这种方法也有局限性，例如不能搜索最优路径(即，用于从一种状态转换到另一种状态的最优控制函数序列)，并且依赖贪婪标准来选择要访问的边界(例如，最小距离或信息增益)。此外，还需要一个路径规划器，用于在没有冲突的情况下导航到选定的边界

本文将SLAM的控制信号生成和状态转换视为解决一个RL问题，其中代理必须学习最佳的动作序列(控制信号的最佳序列)，即使总累积回报最大化的序列。

目标是在最短的时间内探索并完成地图而不发生碰撞。为了选择最佳行动u，代理接收关于环境状态的信息和与之相关的奖励r。

对于RL 状态向量可以包括传感器读数、地图信息、机器人过去采取的动作等。即用于学习最优轨迹的所有重要信息。由于自由度较高，很难选择合适的状态向量，但一个信息丰富的状态向量对于学习算法的良好性能至关重要。