2023ICCV《GridMM: Grid Memory Map for Vision-and-Language Navigation》阅读笔记

最新推荐文章于 2024-07-25 11:12:43 发布

初篱

最新推荐文章于 2024-07-25 11:12:43 发布

阅读量216

点赞数 4

分类专栏：视觉语言导航VLN 文章标签：笔记人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_44100524/article/details/134049299

版权

视觉语言导航VLN 专栏收录该内容

22 篇文章 35 订阅 ¥19.90 ¥99.00

订阅专栏

Abstract

视觉和语言导航（VLN）使代理能够在3D环境中按照自然语言指令导航到远程位置。为了表示以前访问过的环境，大多数VLN方法使用递归状态、拓扑映射或自上而下的语义映射来实现内存。与这些方法相反，我们构建了自上而下的自我中心和动态增长的网格内存映射（即GridMM）来构建访问环境。从全局角度来看，历史观测以自上而下的方式投影到统一的网格图中，可以更好地表示环境的空间关系。从局部角度来看，我们进一步提出了一种指令相关性聚合方法，以捕获每个网格区域中的细粒度视觉线索。在离散环境中的REVERIE、R2R、SOON数据集和连续环境中的R2R-CE数据集上进行了大量实验，表明了我们提出的方法的优越性。代码开源。

1 Introduction

视觉和语言导航（VLN）任务[4，35，42]要求代理理解自然语言指令并根据指令行事。已经提出了两种不同的VLN场景，即在离散环境（例如R2R[4]、REVERIE[42]、SOON[65]）和连续环境（例如，R2R-CE[34]、RxRCE[35]）中导航。离散环境下的VLN中被抽象为互连的可导航节点的拓扑结构，使用

了解本专栏

关注

4
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
2023ICCV《GridMM: Grid Memory Map for Vision-and-Language Navigation》阅读笔记

视觉和语言导航（VLN）使代理能够在3D环境中按照自然语言指令导航到远程位置。为了表示以前访问过的环境，大多数VLN方法使用递归状态、拓扑映射或自上而下的语义映射来实现内存。与这些方法相反，我们。从全局角度来看，历史观测以自上而下的方式投影到统一的网格图中，可以更好地表示环境的空间关系。从局部角度来看，我们进一步提出了一种。在离散环境中的REVERIE、R2R、SOON数据集和连续环境中的R2R-CE数据集上进行了大量实验，表明了我们提出的方法的优越性。开源。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

初篱 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。