视觉语言导航
文章平均质量分 96
视觉萌新、
博客专家认证、人工智能领域优质创作者,曾经研究过图像增强、目标检测、细粒度分类以及域适应等计算机视觉方向,目前在研究具身智能相关的方向。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【VLN入门】一文搞懂视觉语言导航:从任务介绍到基本算法讲解
视觉语言导航任务就是给定智能体一个语言指令(instruction),之后让智能体参考指令内容,导航到指定的目标地点,与传统基于SLAM的导航策略不同,智能体并没有预先见过这个环境,只能通过对环境的观测(例如RGB图、深度图),再结合语言指令的意图,在环境中做探索,慢慢探索到指定的位置。原创 2024-12-23 20:17:08 · 7178 阅读 · 8 评论 -
【超详细】VLN算法学习:GridMM——使用网格记忆图来表征历史轨迹中的场景空间关系GridMM: Grid Memory Map for VLN
论文题目:《GridMM: Grid Memory Map for Vision-and-Language Navigation》在视觉语言导航中,历史信息在环境理解中起着重要的作用。本算法同时使用RGB图像和深度图来观测每一个节点的环境信息,作者提出了一种网格记忆图(Grid Memory Map, GridMM),用于在导航过程中对全局历史观测进行建模,利用时间和空间信息来描述全局访问环境。原创 2024-12-23 11:00:00 · 1877 阅读 · 2 评论 -
【超详细】VLN算法学习:AZHP——使用自适应区域分层规划器来实现层次化导航的目的Adaptive Zone-aware Hierarchical Planner for VLN
论文题目:《Adaptive Zone-aware Hierarchical Planner for Vision-Language Navigation》VLN任务具有分层特性,它由一个高阶过程(即子目标的设置)和一个低阶过程(即子目标的执行)组成,子目标(sub-goal)是指到达一个子区域(sub-region)的目标。本文提出了一个自适应区域感知的分层规划器(Adaptive Zone-aware Hierarchical Planner, AZHP)来建模这一分层规划的过程。原创 2024-12-22 13:09:17 · 1856 阅读 · 1 评论 -
【视觉语言导航】VLN辅助任务:MLM、SAP、SAR、SPREL——预训练、微调中常用的提点策略
本文主要介绍了在视觉语言导航算法的训练过程中常用的四种辅助任务:MLM、SAP、SAR、SPREL。其中MLM主要用于在导航背景下对齐文本特征与图像特征;SAP和SAR两个辅助任务能够学习如何根据指令和上下文历史信息做出动作决策;SPREL主要帮助智能体理解观测图像的空间关系原创 2024-12-21 17:51:17 · 1917 阅读 · 0 评论 -
【超详细】VLN算法学习:DUET——首篇使用Transformer来建模全局图节点相关性的工作Think Global, Act Local:Dual-scale Graph Transformer
论文题目:《Think Global, Act Local: Dual-scale Graph Transformer for Vision-and-Language Navigation》这一篇是非常经典的“边走边建图”论文,利用transformer建模历史节点之间的全局相关性,后续有很多VLN方法是基于这篇文章的框架做的改进。本文采用图结构存储全局的历史节点信息,并且利用transformer建模节点与节点之间的相关性原创 2024-12-21 17:41:41 · 3395 阅读 · 0 评论 -
【VLN环境配置】Matterport3DSimulator——用于视觉语言导航的虚拟仿真引擎环境配置
Matterport3D模拟器是一个用于视觉语言导航任务的高质量虚拟环境,基于真实的室内空间创建,提供丰富的视觉和语义信息。它支持多种房间布局和多样化的家具元素,使导航任务更接近现实复杂性。在该模拟器中,代理体根据自然语言指令进行导航,需要理解指令并结合视觉信息进行路径规划。Matterport3D提供高分辨率图像和详细的3D结构,便于训练和评估导航算法的性能,并与MatterSim等工具结合进行大规模仿真实验,推动视觉理解与语言理解的研究。原创 2024-09-28 20:38:17 · 4002 阅读 · 17 评论
分享