2022CVPR《Cross-modal Map Learning for Vision and Language Navigation》阅读笔记

最新推荐文章于 2024-07-25 11:12:43 发布

初篱

最新推荐文章于 2024-07-25 11:12:43 发布

阅读量188

点赞数

分类专栏：视觉语言导航VLN 文章标签：笔记人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_44100524/article/details/132557050

版权

视觉语言导航VLN 专栏收录该内容

22 篇文章 35 订阅 ¥19.90 ¥99.00

订阅专栏

Project webpage: https://ggeorgak11.github.io/CM2-project/

1 Abstract

目前大多数的视觉语言导航方法都是使用非结构化的内存（如LSTM）进行端到端训练，或者使用跨模态注意力对代理的自我中心观察进行训练。在这篇文章中，我们认为当视觉和语言发生在明确的空间表征时，它们之间的联系会加强。因此，我们提出一种用于视觉语言导航的跨模态地图学习（ $CM^2$ ）模型，该模型首先学习预测以自我为中心的地图上观察到和未观察到的区域的自上而下的语义，然后将通往目标的路径预测为一组路点。在这两种情况下，预测都是由语言通过跨模态注意机制提供的。

我们所提的方法将问题分解成语义和空间两条路径，如图1所示。

1）首先，使用跨模态注意力网络，通过输入的RGB-D和语言指令来学习预测语义图，主要用来学习代理视觉之外的信息。

2）然后，利用另一个跨模态注意力网络，该网络主要通过上一步的语义图和指令信息来学习路径轨迹在语义图上的表示。

通过这两个任务，可以得到被关注的目标对象在地图上的位置。

2 Approach

2.1 问题设置

采用连续环境中的视觉语言导航VLN-CE中的设置，代理可以访问以自我为中心的RGB-D观测，分辨

了解本专栏

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
2022CVPR《Cross-modal Map Learning for Vision and Language Navigation》阅读笔记

目前大多数的视觉语言导航方法都是使用非结构化的内存（如LSTM）进行端到端训练，或者使用跨模态注意力对代理的自我中心观察进行训练。在这篇文章中，我们认为当视觉和语言发生在明确的空间表征时，它们之间的联系会加强。因此，我们提出一种用于视觉语言导航的跨模态地图学习（）模型，该模型首先学习预测以自我为中心的地图上观察到和未观察到的区域的自上而下的语义，然后将通往目标的路径预测为一组路点。在这两种情况下，预测都是由语言通过跨模态注意机制提供的。我们所提的方法将问题分解成语义和空间两条路径，如图1所示。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

初篱 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。