【文献笔记】用于UAV的深度强化学习语义主动感知Semantic

1 篇文章 0 订阅
1 篇文章 0 订阅

摘要

此项工作为无人机(UAV)提出了一个基于语义的路径规划流程,其使用深度强化学习在挑战性的环境中进行视觉导航。受语义分割方法日趋成熟的影响,所提出的路径规划结构使用强化学习通过语义信息来辨别场景中含有更多信息的部分,以求使无人机获得更加鲁棒、可重复、和准确的导航以抵达预定的目的地。假设无人机执行基于视觉的状态估计,如基于关键帧的视觉里程计和机载语义分割,所提出的深度策略网络(DQN)持续评估所观测的每个语义类的最佳相对感知信息量。感知路径规划器使用这些信息性值来执行轨迹优化,以便根据当前状态和周围环境的感知质量生成下一个最佳行动,本质上引导无人机避免飞过感知退化的区域。由于使用了语义线索,该策略可以在大量非逼真的随机生成的场景中进行训练,结果生成的体系结构可推广到具有相同语义类的环境中,而不依赖于它们的视觉外观。在具有挑战性的仿真模拟环境下的广泛评估表明,与主动感知技术的SOTA相比,所提出的方法在鲁棒性和成功率方面有显著改善。

1. 介绍

机器人实现精确定位和安全导航的能力是真正自主系统的基本技能。由于无人机平台的敏捷性,这些能力发挥了更重要的作用。例如,在工业检验和包裹投递中,无人机必须对环境进行足够精确的测绘,以避免与障碍物发生碰撞,准确到达目标位置。然而,同步定位与建图(SLAM)仍然是开放的问题,因为大多数使用的传感器,如GPS,可能会由于恶劣天气、干扰、或在高楼峡谷等许多情况下失效。避免无人机的定位系统故障是至关重要的,因为不同于地面机器人,它们不能立即停止所有运动,相反,它们要么需要到达紧急着陆点,要么继续向目的地飞行。基于视觉的同步定位与建图(SLAM)技术已广泛应用于无人机导航[1];然而,其性能(即鲁棒性、准确性)受到导航环境条件的严重影响。例如,基于视觉的SLAM在存在动态物体(如人、汽车、风中移动的树)和没有纹理或纹理呈现出高光的区域(如海洋、湖泊)时,准确率会显著下降(甚至失败)。
图1. 在Baxall实验中,无人机飞向目的地的路径的3D视图。经过的路径(绿色)表明机器人能够成功避开摄像机状态估计有问题的区域,如水域,同时在可靠的纹理上导航,如地形和建筑物。

图1. 在Baxall实验中,无人机飞向目的地的路径的3D视图。经过的路径(绿色)表明机器人能够成功避开摄像机状态估计有问题的区域,如水域,同时在可靠的纹理上导航,如地形和建筑物。

这项工作提出了一种基于强化学习的无人机视觉导航主动感知路径规划算法,引导无人机到达预定的目标位置,同时避开纹理较少和纹理较差的区域,以及定位不太可靠的区域,如湖泊、有移动汽车的街道和树木(图1)。该框架通过为每个语义类分配感知信息评分,在线输出最优策略,允许引导机器人远离潜在危险区域。我们在一组非真实感随机生成的3D模型中训练我们的策略,并在一组以前从未见过的环境中测试它,包括真实地点的真实感3D模型。该算法与语义分割算法无关,适用于任何语义类集。

简而言之,这项工作的贡献如下:

  • 基于强化学习的语义感知路径规划算法设计,用于挑战性环境下基于视觉的空中导航
  • 训练框架和策略架构的设计能够推广到未见过的环境
  • 对所提出的系统的性能进行了广泛的定量评价,并与逼真模拟中最先进的主动感知技术相比较。

2. 相关工作

视觉SLAM算法为机器人提供了姿态和周围环境的估计,很大程度上受到运动和机器人所经过的路径的影响,因为突然且高度动态的运动可能导致错误的估计甚至失败。主动感知是创造完全自主系统的基本步骤,能够应对真实任务中存在的不确定性。主动知觉的核心概念是通过适当选择运动控制动作来提高感觉性能。现代作品提出了在统一框架[3]、[4]中集成感知、路径规划和控制的解决方案。从理论的角度,主动感知问题被表述为部分可观察马尔可夫决策过程(POMDPs)[5],它的求解一般是复杂的。寻找有效解决方案的动力导致了信念路线图[6]和信念树[7]的概念,而最近,后退视界方法和感知路径规划算法出现了[8]和[9],展示了如何使用SLAM系统的内部状态来避免环境中无纹理的区域。

与这项工作最相关的竞争对手之一是[8]中的感知规划器,它提出生成运动原语,并通过考虑每个区域的地标的集中程度、碰撞的概率和到目标的距离来评估它们。然而,在[11]中,证明了仅地标集中是不足以识别最佳飞行区域的,相反,提出了一种使用语义评估候选导航区域质量的感知感知规划器。在感知规划算法中,使用SLAM输入图像的语义分割作为附加线索,[11]在定位的准确性和鲁棒性方面取得了迄今为止最好的结果。然而,它不能动态适应飞行时导航区域的变化,因为它给场景中的每个语义类分配固定的二元信息性评分。此外,这种方法需要手动评分定义,随着类数量的增加,这可能变得具有挑战性。为了解决这个问题,这项工作提出了一种利用基于强化学习的主动感知来解决这些限制的管道,从语义信息中动态识别最可靠的本地化区域。强化学习(RL)可以让自主系统学习复杂任务的策略,如控制[12]和避障[13],减少工程上的努力设计一个合适的奖励函数[14]。结合深度神经网络,深度强化学习提供了一个强大的工具,能够将高维的感知输入映射到最佳的行动,在自动驾驶[15]和机器人导航[16],[17]等领域显示出有前景的结果。

本着这种精神,这项工作使用强化学习训练的基于深度策略的感知路径规划管道解决了[11]的局限性,该系统能够减少基于视觉的SLAM中的漂移,不需要手动设置信息性评分,而是使用实时的机载自动调优评分。简而言之,给定场景的输入语义掩码,通过在线适应场景,并为不同的语义类分配不同的重要性,提出的规划器学会鼓励导航通过适合视觉定位的区域。与纯反应性规划和最先进的感知规划(如[8]和[11]中提出的规划器)相比,我们的方法在任务成功率方面有很大提高。

3. 方法

本工作的目标问题是无人机达到预定的目标姿态,同时最小化基于机载视觉的SLAM算法中的漂移。我们的主要目标是识别和飞行通过合适的区域进行视觉定位,避免导致高误差和姿态估计失败的空间区域。我们将其表述为一个路径规划问题,其训练一个深度强化学习Agent从语义标记的图像中识别可靠区域。语义是Agent的一个有价值的信息源,因为在良好的光照条件下,对于属于相同语义类的区域,姿态估计中的漂移通常是一致的。此外,使用中间层表示(如语义掩码)作为输入已被证明可以更好地泛化策略[18]。同时,我们的体系结构允许分离语义标记和路径规划的问题。这种解耦对于可部署性是必不可少的,因为直接学习从原始相机数据到每个语义类的感知信息量的映射需要一个隐式语义分割步骤,这将在RL方式下花费非常长的训练时间。

鉴于实时语义分割已经达到了较高的成熟度[19],本工作假设一个高质量的语义分割图像作为输入。考虑到用于姿态估计的基于关键帧的视觉里程计(VO)系统的局限性,我们使用[11]方法的调整,以后退的地平线方式生成平滑和无碰撞的轨迹。语义类通过使用Unity1和Flightmare框架[20]在随机生成的场景中训练的策略映射到一定的感知信息性分数。这些分数记录在每个类中,并依次输入到路径规划器中,这将鼓励在漂移较少的区域中导航,并在摄像机视野中保持VO流程估计的最佳3D地标。

A. 系统概览

如图2所示,所提出的流程由三个主要部分组成;基于单目相机的姿态估计模块、深度强化学习的Agent、路径规划模块。我们假设RGB和深度图像流是已获得的。利用深度图像生成机器人局部环境的三维重建,而VO算法利用RGB图像估计机器人的姿态。密集的点云存储在使用3D圆形缓冲区[21]的占用地图中。
在这里插入图片描述

图2:流程的概览示意图。在估计模块中,我们处理传感器输入来估计无人机的姿态和3D地标。地标和从深度图像获得的占用地图一起经过一个分类步骤,其中每个点被分配给一个语义类。强化学习Agent利用语义掩码生成最佳操作,该操作由分配给每个语义类的一组权重组成。然后,权重的最佳选择从传给[11]中的感知路径规划器。最后,路径规划模块输出最优轨迹,同时考虑平台的动态和感知质量。

我们使用基于关键帧的VO系统ORB-SLAM[22]来估计相机的姿态,但我们的系统不绑定所采用的VO算法。由于ORB-SLAM是一种单目视觉系统,所以无法获得尺度信息。然而,由于我们的Agent在仿真环境训练,我们可以访问Ground Truth信息,用于重新缩放估计的位置和3D地标。

3D占用地图和稀疏地标都要经过一个分类步骤,为所有点提供语义标签,然后将这些标签提供给路径规划模块。考虑到移动物体(如汽车、人、树)的检测和地面分类不是这项工作的核心贡献,我们在实验中使用Ground Truth语义掩码,但有大量现成的算法可以实现语义分割[23]、[24]。语义掩码还作为深度强化学习策略的输入,该策略输出与每个语义类的感知信息量相关的值。这些价值被传达给规划者,规划者利用它们来推断下一个最佳行动。策略输出被用作目标函数中的一组权重,在路径生成步骤中进行优化,有利于对属于场景部分的点进行跟踪和三角化,这对基于摄像机的状态估计有用。下一节将详细介绍深度强化学习Agent结构及其与路径规划模块的接口。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

奋豆者

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值