Target-Driven Visual Navigation In Indoor Scenes Using DRL 讲解

最新推荐文章于 2024-04-29 14:59:16 发布

置顶

Snail_Walker

最新推荐文章于 2024-04-29 14:59:16 发布

阅读量1.6k

点赞数 1

分类专栏： RL & DL & SLAM 文章标签： DRL

本文链接：https://blog.csdn.net/c602273091/article/details/78817808

版权

本文介绍了使用深度强化学习（DRL）实现室内场景目标导向视觉导航的方法，通过端到端的学习，从当前状态和目标图像直接输出行动。重点包括其在不同环境和目标间的泛化能力，以及使用的3D模拟器AI2-THOR。DRL模型基于ResNet-50的双通道输入，通过Q学习和actor-critic模型进行决策。实验展示了在多种场景和目标情况下的有效性能。

摘要由CSDN通过智能技术生成

简介
细节
- - 问题
  - learning setup

简介

机器人要对目标物体进行操作的时候，比如机器人从冰箱里拿出可乐。那么在传统方法中，一般是需要进行环境感知，机器人知道周围环境以及它目前所处的位置，位姿，以及目标的位置，接着进行路径规划，然后是决策控制。当然，中间还有landmark建模等等，可以看出为了解决这一系列的问题，需要进行较多的步骤。Feifei Li她们组就弄了一个end-to-end的方法，直接从输入当前图片以及目标图片，进行学习，输出不同场景下的action~ 选择概率最大的场景执行。所以通过这种凭感觉走的DRL的方式，就可以像人一样找到目标。

在这篇论文中，主要是两个贡献，一个是泛化性能，一个是3D模拟器。泛化能力指的是在不同的场景中，都能找到目标。以及在同一个场景中，可以找到不同的目标。3D模拟器就是对真实世界的模拟，这样可以训练得更快。这个模拟器对于以前的模拟器它有有点，主要是实时交互性以及它的真实性，比如点击冰箱就可以打开，用的是Unity3D做的。叫做AI2-THOR模型。可以使用Python API让agent与引擎进行交互。

DRL深度强化学习，深度学习和强化学习的结合体。前一部分是深度学习提取特征的部分，后面的loss function用的就是Q function。之前的DRL的方法比如AlphaGo使用的是转有的target模型，面对棋局的变化就要重新训练过。

细节

问题

从输入当前状态的图片和目标图片，通过DRL网络后，输出3D的action。所以是一个2D到3D空间的变化。之前训练网络，目标参数都是死的，比如AlphaGo的规则，如何判断是赢。然后规则改变的话，那么整个网络参数就要重新进行训练。整个的policy就是 π(s)

最低0.47元/天解锁文章

Snail_Walker

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
5
评论
Target-Driven Visual Navigation In Indoor Scenes Using DRL 讲解

简介细节问题learning setup简介机器人要对目标物体进行操作的时候，比如机器人从冰箱里拿出可乐。那么在传统方法中，一般是需要进行环境感知，机器人知道周围环境以及它目前所处的位置，位姿，以及目标的位置，接着进行路径规划，然后是决策控制。当然，中间还有landmark建模等等，可以看出为了解决这一系列的问题，需要进行较多的步骤。Feifei Li她们组就弄了一个end-to-end的方法，
复制链接

扫一扫

专栏目录