[论文笔记]Learning exploration policies for navigation

Learning exploration policies for navigation

任务驱动的导航问题已经得到较好的解决,但是如何有效地探索一个新环境,这就是本文关注的点。

本文主要研究了行动体在没有任务奖励的情况下自主探索3D环境。提出一种基于学习的方法,并研究了不同的策略架构、奖励函数和训练模式。

视频和代码

简单介绍一下 导航:

· 基于几何重构和路径规划的方法:

基于SLAM的方法,首先构建地图,然后使用定位和路径规划进行导航。但是如何构建地图呢,当前的方法或者使用人类操作员来控制机器人来构建地图。

· 基于学习的方法:

对于使用学习的方法,大多数只学习特定任务的策略。而且对于这种方法,训练时和测试时的探索都很重要。

对于这两种方法探索策略就是一个大瓶颈,对于任务无关的策略,它探索环境以构建地图或样本轨迹,从而以高效采样的方式学习导航策略。所以如何学习这种独立于任务的策略?

·使用强化学习的方法学习内在奖励。探索过程中定义预测误差为奖励,然后重复访问做一个惩罚。

虽然这看起来是一种有效的奖励,但这种方法仍然是低效的,因为黑盒奖励函数不能被区分来有效地计算梯度。

所以本文从 结构设计、奖励函数设计、奖励优化三个角度来提出一种基于学习得导航探索策略的方法。

相关工作

经典机器人学中的导航

传统的导航方法是通过构建环境地图,在地图中定位行动体,然后规划路径将行动体传送到所需的目标位置。然后定位建图、路径规划也有很多研究,但是大部分研究都是被动的SLAM。而主动SLAM(如何自动遍历一个新的环境来构建空间表示)的研究还是比较少的。部分可观测马尔可夫决策过程Partially Observable Markov Decision Processes (POMDPs)或者选择减少估计地图不确定性的行动

虽然这些公式能够进行理论分析,但它们主要依赖传感器来构建地图和定位,因此,这种方法对测量噪声非常敏感。此外,这种方法将探索纯粹视为几何问题,完全忽略了探索的语义线索。

导航学习

很多研究在比较不同的网络结构,如:前馈网络、空间记忆和规划模块,半参数拓扑记忆等。

比较不同的训练范式,如:模仿学习、强化学习、学习逆动力学模型等。

而本文就借鉴了之前的工作,策略架构和奖励定义就使用了空间记忆来实现长期的探索,并且模仿人类探索来引导策略的学习。但不依赖外在定义的奖励信号进行训练。

导航探索

最近有关探索的研究往往和强化学习联系起来。通过设计内在的奖励函数来获取状态或状态-动作转换 的新奇。然后通过使用强化学习优化这些奖励函数来学习探索策略。而本文和这些工作也非常相似,

本文的方法

设定的场景为行动体在一个未知的新环境,并且想学习一种探索策略,使这个行动体能够有效地探索这个新环境。对新环境的成功探索应该使行动体能够在新环境中高效地完成任务。

而本文工作的关键就是 :

· 策略的设计

· 奖励函数的设计

· 使用专家演示来加速策略的训练

地图的构建

本文的地图构建主要使用深度相机采集的数据。

假设行动体在 t t t时刻对其当前未知的估计是 x ^ t \hat{x}_t x^t,该时刻的动作定为 a t a_t

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
深度学习在语义道路场景的多模态融合中的探索是一项研究任务,目的是通过结合多种视觉和感知模态的信息,提升对道路场景的语义理解能力。 在这个任务中,我们使用深度学习的方法来处理不同模态的数据,如图像、激光雷达和 GPS 等。我们首先将这些模态的数据进行预处理,将其转换为神经网络可以处理的格式。然后,我们构建深度神经网络模型,用于将这些模态的信息进行融合。这种融合可以是级联式的,也可以是并行式的,即同时处理多个模态,以充分利用不同模态数据之间的相关性。 在模型的训练过程中,我们使用大量的标注数据,将不同模态数据与其对应的语义标签进行匹配。通过反向传播算法,我们可以优化模型参数,使其能够准确地预测道路场景的语义信息。 深度学习的多模态融合方法在语义道路场景中有广泛的应用。通过结合不同模态的信息,我们可以更好地理解道路场景中的障碍物、车辆、行人等不同元素。这种融合方法还可以提高对不同道路环境的适应性,使得我们的模型在城市、乡村等不同场景中都能够有效地工作。 总之,深度学习的多模态融合方法对于道路场景的语义理解具有重要意义。通过结合多种视觉和感知模态的信息,我们可以提高对道路场景的认知能力,为自动驾驶、智能交通等领域的发展提供有力支持。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值