2024VLN综述(2)

22 篇文章 42 订阅 ¥19.90 ¥99.00
本文介绍了视觉-语言导航(VLN)代理的四种主要类型:基于表示学习、决策和策略学习、面向任务和数据驱动。在表示学习中,代理学习视觉和语言的联合表示,以增强导航和决策能力。决策和策略学习涉及路线规划、强化学习和策略改进,以应对复杂环境。任务导向的代理处理特定目标的任务,而数据驱动方法通过数据增强和多任务学习提升模型的泛化能力。这些技术为VLN任务提供了多样化的解决方案,促进了智能体在复杂环境中的导航性能。
摘要由CSDN通过智能技术生成

5 AGENTS 

VLN代理根据其核心特征和技术方法可分为四种主要类型:基于表示学习基于决策和策略学习面向任务数据驱动。这种分类反映了VLN代理在处理多模式信息、执行复杂推理、解决数据短缺和适应环境变化方面的独特策略。每一类代理都为VLN任务的特定方面提供了解决方案,展示了执行复杂视觉和语言任务的多样性。系统的分类为研究人员提供了全面而详细的视角,加深了对VLN代理如何处理任务、数据和环境适应性的理解。这不仅有助于当前研究的进展,也指导了未来VLN技术的发展和创新。

5.1 Representation Learning-based

这些代理的核心任务是加深对各种模式之间关系的理解,特别是指令中的词汇与环境感知特征之间的相互作用。有效的表示学习有助于智能体在处理图像、指令和导航动作的同时,在语言描述和视觉感知之间建立联系,增强复杂场景中的导航能力和决策效率。

5.1.1 Unimodal Representations in Vision-Language.

Visual Representation

在VLN领域,基于视觉表示的学习模型侧重于增强主体对视觉信息和语言指令之间关系的理解,特别是将指令中的词汇与感知的环境特征联系起来。通过使用预训练的模型,如ResNet[20]或Vision Transformer[88]进行视觉编码,增

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

初篱

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值