Target-Driven Visual Navigation In Indoor Scenes Using DRL 讲解

本文介绍了使用深度强化学习(DRL)实现室内场景目标导向视觉导航的方法,通过端到端的学习,从当前状态和目标图像直接输出行动。重点包括其在不同环境和目标间的泛化能力,以及使用的3D模拟器AI2-THOR。DRL模型基于ResNet-50的双通道输入,通过Q学习和actor-critic模型进行决策。实验展示了在多种场景和目标情况下的有效性能。
摘要由CSDN通过智能技术生成

简介

机器人要对目标物体进行操作的时候,比如机器人从冰箱里拿出可乐。那么在传统方法中,一般是需要进行环境感知,机器人知道周围环境以及它目前所处的位置,位姿,以及目标的位置,接着进行路径规划,然后是决策控制。当然,中间还有landmark建模等等,可以看出为了解决这一系列的问题,需要进行较多的步骤。Feifei Li她们组就弄了一个end-to-end的方法,直接从输入当前图片以及目标图片,进行学习,输出不同场景下的action~ 选择概率最大的场景执行。所以通过这种凭感觉走的DRL的方式,就可以像人一样找到目标。

在这篇论文中,主要是两个贡献,一个是泛化性能,一个是3D模拟器。泛化能力指的是在不同的场景中,都能找到目标。以及在同一个场景中,可以找到不同的目标。3D模拟器就是对真实世界的模拟,这样可以训练得更快。这个模拟器对于以前的模拟器它有有点,主要是实时交互性以及它的真实性,比如点击冰箱就可以打开,用的是Unity3D做的。叫做AI2-THOR模型。可以使用Python API让agent与引擎进行交互。

DRL深度强化学习,深度学习和强化学习的结合体。前一部分是深度学习提取特征的部分,后面的loss function用的就是Q function。之前的DRL的方法比如AlphaGo使用的是转有的target模型,面对棋局的变化就要重新训练过。

细节

问题

从输入当前状态的图片和目标图片,通过DRL网络后,输出3D的action。所以是一个2D到3D空间的变化。之前训练网络,目标参数都是死的,比如AlphaGo的规则,如何判断是赢。然后规则改变的话,那么整个网络参数就要重新进行训练。整个的policy就是 π(s)

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值