From Seeing to Moving: A Survey on Learning for Visual Indoor Navigation (VIL)

本文探讨了基于学习的视觉室内导航(VIN)任务,包括相关任务如EQA和VLN,方法分类,目标驱动的导航策略,以及特征表征和马尔可夫决策过程在VIN中的应用。此外,文章还讨论了模型的泛化能力和在模拟与真实环境中的表现,以及监督学习和强化学习的比较。
摘要由CSDN通过智能技术生成

From Seeing to Moving: A Survey on Learning for Visual Indoor Navigation (VIL)

摘要

视觉室内导航(VIN)任务在基于学习的方法取得一定成功后,吸引了越来越多的关注。由于这个工作本身的复杂性,研究者们从不同角度入手解决这个问题。在这篇综述中,我们讨论了视觉导航及其相关任务的基于学习方法的进展,还讨论了现有方法未解决的困难和未来值得探索的研究方向。

相关任务
  • 视觉室内导航(VIN)任务:智能体在室内环境中以第一人称视角按照使用者具体的目标进行导航。该任务要求智能体能够理解视觉输入,判断当前位置,推理目标方向,计划导航轨迹,执行决策动作。
  • 具体问题回答(EQA)任务:智能体需要导航到问题导向的目标位置,收集视觉信息完成问题答案。
  • 视觉语言导航(VLN)任务:智能体需要跟随给定自然语言指令在室内完成导航任务。
方法分类
  • 解决视觉导航问题的经典的基于图的方法已经被研究了很多年,这些方法将导航任务明确地分解为一系列子任务,如映射,定位,动作控制。虽然这些方法能够获得一定程度的成功,但分布式设计限制了该类方法的广泛应用性。一个最主要的限制就是这类方法容易受到噪声的影响,无论哪个部分被扰动,都会传播给控制器影响整体,因此这类算法鲁棒性差。同时,这类算法还要求足够的具体场景驱动下海量数据驱动,需要部分人工操作,极大限制了模型的泛化和拓展。
  • 受到深度学习快速发展的影响,基于学习的方法被应用到视觉语言导航任务并取得了较大进展。基于学习的方法自动将输入图片和文本映射为序列数据,不需要进行人工特征选取,在保证效果的前提下极大提升了效率和泛化能力。
目标驱动分类
  • 标签式目标:在一个已知环境中,使用三维点坐标表示在对应帧中的位置为目标。一些工作将目标位置编码到模型中,使智能体记住它。更常见的对具体目标的标签式处理是通过房间类型或物体种类以导航到指定房间。主要
  • 图片式目标:使用场景图的形式使智能体寻找最终目标,因此对目标的表示和对当前视角的视觉表示是同源的。
  • 语言式目标:具体问题问答(EQA)和交互问题回答(IQA)这两个任务都涉及到人类自然语言,这类任务要求智能体导航到一个室内环境然后收集视觉信息去推理答案。另一种任务视
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值