From Seeing to Moving: A Survey on Learning for Visual Indoor Navigation (VIL)

最新推荐文章于 2020-11-05 16:05:16 发布

yyyyyyyyXu

最新推荐文章于 2020-11-05 16:05:16 发布

阅读量311

点赞数

分类专栏：阅读笔记文章标签：机器学习深度学习

本文链接：https://blog.csdn.net/qq_40711769/article/details/105282023

版权

本文探讨了基于学习的视觉室内导航（VIN）任务，包括相关任务如EQA和VLN，方法分类，目标驱动的导航策略，以及特征表征和马尔可夫决策过程在VIN中的应用。此外，文章还讨论了模型的泛化能力和在模拟与真实环境中的表现，以及监督学习和强化学习的比较。

摘要由CSDN通过智能技术生成

From Seeing to Moving: A Survey on Learning for Visual Indoor Navigation (VIL)

视觉室内导航（VIN）任务在基于学习的方法取得一定成功后，吸引了越来越多的关注。由于这个工作本身的复杂性，研究者们从不同角度入手解决这个问题。在这篇综述中，我们讨论了视觉导航及其相关任务的基于学习方法的进展，还讨论了现有方法未解决的困难和未来值得探索的研究方向。

解决视觉导航问题的经典的基于图的方法已经被研究了很多年，这些方法将导航任务明确地分解为一系列子任务，如映射，定位，动作控制。虽然这些方法能够获得一定程度的成功，但分布式设计限制了该类方法的广泛应用性。一个最主要的限制就是这类方法容易受到噪声的影响，无论哪个部分被扰动，都会传播给控制器影响整体，因此这类算法鲁棒性差。同时，这类算法还要求足够的具体场景驱动下海量数据驱动，需要部分人工操作，极大限制了模型的泛化和拓展。
受到深度学习快速发展的影响，基于学习的方法被应用到视觉语言导航任务并取得了较大进展。基于学习的方法自动将输入图片和文本映射为序列数据，不需要进行人工特征选取，在保证效果的前提下极大提升了效率和泛化能力。

标签式目标：在一个已知环境中，使用三维点坐标表示在对应帧中的位置为目标。一些工作将目标位置编码到模型中，使智能体记住它。更常见的对具体目标的标签式处理是通过房间类型或物体种类以导航到指定房间。主要
图片式目标：使用场景图的形式使智能体寻找最终目标，因此对目标的表示和对当前视角的视觉表示是同源的。
语言式目标：具体问题问答（EQA）和交互问题回答（IQA）这两个任务都涉及到人类自然语言，这类任务要求智能体导航到一个室内环境然后收集视觉信息去推理答案。另一种任务视

关注

专栏目录