【论文翻译】Target-driven Visual Navigation in Indoor Scenes using Deep Reinforcement Learning在室内场景中使用深度强化

标题:在室内场景中基于深度强化学习下的目标驱动的视觉导航

作者:Yuke Zhu1 Roozbeh Mottaghi2 Eric Kolve2 Joseph J. Lim1;5 Abhinav Gupta2;3 Li Fei-Fei1 Ali Farhadi2;


  • 摘要:

    • 有两个关于深度强化学习的问题没有得到很好的解决:
      • (1)缺乏对新目标的泛化能力
      • (2)数据效率低下,即,模型需要多次(而且往往代价高昂)反复试验和错误才能收敛,将其应用于实际场景是不切实际的。
    • 在本文中,我们解决了这两个问题,并将我们的模型应用到目标驱动的视觉导航中。为了解决第一个问题,我们提出了一个actor-critic模型,它的策略是一个有关于目标和当前状态的函数,它泛化性能更好。为了解决第二个问题,我们提出了AI2-THOR 框架,它提供了一个具有高质量3D场景和物理引擎的环境。我们的框架能让agents采取行动,与目标互动。因此,我们可以有效地收集大量的训练样本。
    • 我们证明了我们提出的方法:
      • (1)比最先进的深度强化学习方法收敛更快
      • (2)对目标和场景进行概括
      • (3)推广到只需要少量微调的机器人真实场景(模型是在仿真环境中进行训练 )
      • (4)可以进行端对端的训练,不需要特征工程,框架之间的特征匹配和环境的三维重建

  • I. INTRODUCTION

    • 机器人技术中,许多任务都涉及到与物理环境或对象的交互。这种交互的组成部分之一就是:了解agent的操作与由于操作而引起环境的变化之间的相关性和因果联系。自20世纪70年代以来,人们一直在尝试建立一个能够理解这种联系的系统。近年来,随着深度学习模式的兴起,基于学习的方法得到了广泛的普及。
    • 在本文中,我们关注的问题是如何在空间中导航,从而实现只使用视觉输入来找到给定的目标。成功的导航需要学习动作和环境之间的关系。这个特点使得任务非常适合深度强化学习(DRL)算法。然而,一般DRL算法设计目的是:学习只依赖于当前状态的策略,目标隐式地嵌入到模型参数中。因此,有必要为一个新的目标学习新的模型参数。这是有问题的,因为训练DRL agent需要昂贵的计算成本。
    • 为了获得更高的适应性和灵活性,我们引入了目标驱动模型。我们的模型将可视化任务目标作为输入。因此,我们可以避免对每一个新目标进行重新训练。我们的模型学习了一种策略,它共同嵌入目标和当前状态。从本质上说,一个agent采取下一个动作时,条件是它的当前状态和目标,而不仅仅是它的当前状态。因此,不需要为新的目标重新训练模型。我们依赖的一种关键直觉是:不同的训练集分享信息。例如,agents在训练阶段探索共同的路线,同时被训练去寻找不同目标。各种各样的场景也有相似的结构和统计数据(例如,冰箱很可能靠近微波炉)。简而言之,我们利用了这样一个事实:为其他目标训练的模型学习新的目标将会更容易。
    • 不幸的是,在实际环境中训练和定量评估DRL算法常常是乏味的。其中一个原因是在物理空间中运行系统会耗费时间。此外,通过常见的图像数据集收集技术在真实环境中获取大规模的动作和交互数据也不是件小事。为此,我们开发了第一个具有高质量3D场景的模拟框架,称为“交互之家”(AI2-THOR)。我们的模拟框架使我们能够收集大量的”不同环境下的行动和反应“的视觉观察。例如,agent可以自由导航(即在各种真实的室内场景中移动和旋转),并能够与对象进行低水平和高水平的交互(例如,施加力或打开/关闭微波)。
    • 我们对以下任务的方法进行评估:
      • (1)目标泛化(目的:在场景中对未使用过的目标进行导航)
      • (2)场景泛化(目的:在未训练过的场景中,进行导航,寻找到目标)
      • (3)在现实世界的推广中,我们演示了如何使用一个真正的机器人来导航目标
    • 我们的实验表明,我们在训练数据效率方面超过了最先进的DRL方法。我们还演示了模型的泛化方面。
    • 综上所述,我们介绍了一种新的强化学习模型,它可以推广到新的目标和场景。为了学习和评估强化学习模型,我们用高质量的渲染模型创建了一个模拟框架,以使我们能够看到agent的视觉交互。我们还演示了真正的机器人导航,使用我们的模型对现实世界进行了少量的微调。
  • II. RELATED WORK

    • 在视觉导航方面有大量的工作要做。我们提供了一些相关工作的简要概述。基于地图的导航算法需要环境的全局地图来帮助导航做决策。我们的算法相比于这些算法上的主要优势之一:是它不需要预先的环境地图。另一种导航算法可以在飞机上重建地图,并用其导航,或者是通过一个由人类引导的训练阶段来构建地图。相比之下,我们的方法不需要环境地图,因为它不需要对环境的地标做任何假设,也不需要人工指导的训练阶段。无地图导航方法也很常见。这些方法主要关注于输入图像的避障。我们的方法被认为是无地图的。然而,它拥有对环境的隐性知识。视觉导航方法的调查可以在【20】中找到。
    • 注意,我们的方法不是基于特征匹配或三维重建。此外,我们的方法不需要监督训练来识别不同的地标。
    • 强化学习(RL)已被广泛应用。[25]提出了一种用于四足机器人运动的策略梯度RL方法。[26]讨论学习电机原语的策略梯度方法。27提出一种基于单眼照相机的障碍检测方法。28将强化学习应用于自主直升机飞行。29用RL自动采集地图的数据。[30]提出了一种基于内核的大规模增强学习算法。[31]使用RL在雅达利游戏中做决策。与这些方法相比,我们的模型使用深度强化学习来处理高维感官输入。
    • 最近,将深度学习方法与RL相结合的方法显示出了良好的效果。[2]提议用深度Q-networks玩atari游戏。[32]提出了一种新的基于蒙特卡罗树搜索与深度RL融合的搜索算法,在围棋比赛中击败世界冠军。[3]提出了一种深度RL方法,在这种方法中,深度网络的参数由环境中agents的多个异步副本更新。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值