【超详细】VLN算法学习：GridMM——使用网格记忆图来表征历史轨迹中的场景空间关系GridMM: Grid Memory Map for VLN

视觉萌新、

已于 2025-01-16 22:06:10 修改

阅读量1.1k

点赞数 16

分类专栏：视觉语言导航文章标签：论文阅读 VLN 深度学习视觉语言导航论文笔记

于 2024-12-23 11:00:00 首次发布

本文链接：https://blog.csdn.net/qq_50001789/article/details/144652403

版权

视觉语言导航专栏收录该内容

6 篇文章

订阅专栏

VLN算法学习：GridMM——使用网格记忆图来表征历史轨迹中的场景空间关系GridMM: Grid Memory Map for VLN

综述
背景
主要思想
方法
实验结果

【VLN入门介绍】

一文搞懂视觉语言导航，从任务介绍到基本算法讲解：https://blog.csdn.net/qq_50001789/article/details/144676313

【VLN算法笔记】

DUET（CVPR2022），首篇使用Transformer来建模全局图节点相关性的工作：https://blog.csdn.net/qq_50001789/article/details/144632851
AZHP（CVPR2023），使用自适应区域分层规划器来实现层次化导航的目的：https://blog.csdn.net/qq_50001789/article/details/144635128
GridMM（ICCV2023），使用网格记忆图来表征历史轨迹中的场景空间关系：https://blog.csdn.net/qq_50001789/article/details/144652403

【VLN辅助任务】

MLM、SAP、SAR、SPREL——预训练、微调中常用的提点策略：https://blog.csdn.net/qq_50001789/article/details/144633984

【VLN环境配置】

Matterport3DSimulator——用于视觉语言导航算法研发的仿真环境配置：https://blog.csdn.net/qq_50001789/article/details/142621259

综述

论文题目：《GridMM: Grid Memory Map for Vision-and-Language Navigation》

论文链接：https://openaccess.thecvf.com/content/ICCV2023/papers/Wang_GridMM_Grid_Memory_Map_for_Vision-and-Language_Navigation_ICCV_2023_paper.pdf

源码链接：https://github.com/MrZihan/GridMM

论文出处：ICCV23，蒋树强老师团队

背景

在视觉语言导航中，历史信息在环境理解中起着重要的作用，在以前的任务中，大多使用隐藏层编码特征来存储历史信息，将历史观测和动作一起编码到固定大小的状态向量中。然而，这种“浓缩”状态特征可能不足以捕捉轨迹历史中的基本信息。为了构建历史轨迹中的环境编码特征，并进行全局规划，DUET算法利用观测节点的特征构建全局拓扑图（如图1(a)所示），然而，这类方法有很多问题：

全局拓扑图特征很难表示历史观测中物体和场景之间的空间关系，因此丢失了大量的细节信息；
有一部分工作使用自上而下（top-down）的语义图对导航环境进行建模，从而更精确地表示空间关系，但是，由于预定义的语义标签非常有限，因此先前的语义标签中未包含的对象或者场景无法表示；
全局拓扑图的节点特征缺少对象属性的特征（例如“木桌”、“蓝色沙发”），因此难以表征具有多种属性的对象（其实就是缺少对象级特征object-level）。

主要思想

本算法同时使用RGB图像和深度图来观测每一个节点的环境信息，作者提出了一种网格记忆图（Grid Memory Map, GridMM），用于在导航过程中对全局历史观测的场景空间关系进行建模，利用时间和空间信息来描述全局访问环境。具体地来说，网格地图将访问环境划分为许多大小相等的网格区域，每个网格区域包含许多细粒度的视觉特征，我们动态地构建网格存储库，从而在导航过程中更新网格地图。在导航的每一步，利用CLIP提取的视觉特征都会保存到存储库中，之后我们根据深度图的深度信息计算坐标，根据坐标数据将所有的视觉特征分类到网格地图区域中。为了获得每个区域的特征表示，作者设计了一种指令相关的聚合方法（instruction relevance aggregation）来捕获与指令最相关的视觉特征，并将他们聚合为一个整体特征。借助聚合的 $N\times N$ 地图特征，智能体能够准确地进行下一步的行动决策。

方法

注：为了方便描述，后文均用第一人称来描述具体的操作步骤。

网格记忆图

在每个导航步骤 $t$ 中，我们首先将细粒度的视觉特征及其对应的坐标存储在网格记忆（grid memory）中。对于RGB全景图 $\mathcal R_t=\{r_{t,k}\}^K_{k=1}$ ，我们使用预训练的CLIP-ViT-B/32模型来提取网格特征 $G_t=\{g_{t,k}\in\mathbb R^{H\times W\times D}\}$ ，第 $h$ 行和 $w$ 列的网格特征表示为 $g_{t,k,h,w}\in\mathbb R^D$ ，之后将对应的深度图像 $\mathcal D_t$ 下采样到相同的尺度 $\mathcal D'_t=\{d'_{t,k}\in\mathbb R^{H\times W}\}^K_{k=1}$ ，第 $h$ 行和第 $w$ 列特征位置的深度数值表示为 $d_{t,k,h,w}'$ 。为了方便起见，我们将所有的下标 $(k, h, w)$ 表示为 $i$ ，其中 $i$ 的取值范围为 $1$ 到 $I$ ， $I=K\cdot H\cdot W$ ， $g_{t,k,h,w}$ 可以表示为 $\hat{g}_{t,i}$ ， $d_{t,k,h,w}$ 可以表示为 $\hat{d}_{t,i}$ ，我们可以利用如下公式计算 $\hat{g}_{t,j}$ 的绝对坐标 $P(\hat{g}_{t,i})$ ：
$P(\hat{g}_{t,i})=(x_{t,i},y_{t,i})\\ =(\mathcal X_t+d_{t,i}^{line}\cdot cos(\theta_{t,i}),\mathcal Y_t+d_{t,i}^{line}\cdot sin(\theta_{t,i}))$
其中 $(\mathcal X_t,\mathcal Y_t)$ 表示智能体当前的坐标， $\theta_{t,i}$ 表示 $\hat{g}_{t,i}$ 与智能体当前方向之间的航向角（水平角度，heading）， $d^{line}_{t,i}$ 表示 $\hat g_{t,i}$ 与智能体之间的欧氏距离，可以通过 $\hat{d}_{t,i}$ 和 $\theta_{t,i}$ 来计算。我们将所有这些网格特征及其绝对坐标存储在网格存储器中：
$\mathcal M_t=\mathcal M_{t-1}\cup\{[\hat{g}_{t,i},P(\hat{g}_{t,i})]\}^I_{i=1}$
然后，我们提出了一种动态坐标变换方法，利用网格记忆 $\mathcal M_t$ 中的视觉特征构建网格记忆地图（grid memory map），如图3(a)所示，通过将所有的历史观测 $\hat g_{t,i}$ 投影到基于绝对坐标的统一地图中，我们可以以一个统一的特征框架来表征所访问的环境。然而，这种绝对坐标下的地图主要有两个缺点：

将候选的观测和指令与绝对坐标的对齐难度比较高；
如果没有关于环境的先验信息，很难确定地图的尺度和范围，很难建立起绝对坐标系下的地图数据。

为了解决这些不足，我们提出了一种新的映射方法来构建自顶向下、以自我为中心的动态增长的地图，如图3(b)所示，在每一步中，我们通过将网格记忆 $\mathcal M_t$ 的所有特征投影到一个新的平面迪卡尔坐标系中，以智能体的位置作为坐标原点，以智能体当前的方向作为y轴的正方向。在新的坐标系中，对于网格记忆 $\mathcal M_t$ 中的每个网格特征 $\hat g_{s,i}$ ，我们可以利用如下公式在时间步 $t$ 上计算一个新的相对坐标 $P^{rel}_t(\hat g_{s,i})$ ：
$\begin{aligned} P_{t}^{rel}&(\hat{g}_{s,i})=(x_{s,i}^{rel}\:,\:y_{s,i}^{rel})\\ =&(\:(x_{s,i}-\mathcal{X}_t)\cdot cos\Theta_t+(y_{s,i}-\mathcal{Y}_t)\cdot sin\Theta_t\:,\\ &(y_{s,i}-\mathcal{Y}_t)\cdot cos\Theta_t-(x_{s,i}-\mathcal{X}_t)\cdot sin\Theta_t\:)\\ \end{aligned}$
其中， $\Theta_t$ 表示新坐标系和旧坐标系之间的航向角（heading angle）。进一步地，我们通过网格特征及其新坐标来构建网格记忆图（Grid Memory Map, GridMM），在第 $t$ 步中，网格记忆图取 $L_t$ 作为边长：
$L_{t}=2\cdot max(\:max(\{\{|x_{s,i}^{rel}|\}_{i=1}^{I}\}_{s=1}^{t})\:, max(\{\{|y_{s,i}^{rel}|\}_{i=1}^{I}\}_{s=1}^{t})\:)$
GridMM的大小随着访问环境的扩大而增大，智能体总是在这个地图的中心，地图在以自我为中心的视图中与当前的全景观测对齐，之后将地图划分为 $N\times N$ 单元，根据新的相对坐标将 $\mathcal M_t$ 中所有的特征投影到这些单元中。最后，利用 $N\times N$ 的单元格构建网格记忆GridMM，每个单元格包含多个细粒度的视觉特征。将每个cell中的所有视觉特征聚合到一个嵌入向量中，得到图特征 $M_t\in \mathbb R^{N\times N\times D}$ ，详细的聚合方法可参考图记忆编码小节。

模型结构

指令和观测编码

对于指令编码， $\mathcal W$ 中的每个单词向量先加一个位置编码和token类型编码，所有的单词token传入一个多层transformer模块来获得单词表征，可以表示为 $\mathcal W'=\{w_l'\}^L_{l=1}$ 。

视觉观测编码可以表示为：
$\mathcal O_t=LN(W_1^{\mathcal O}[\mathcal R_t';\mathcal N(\mathcal R_t')])+LN(W_2^{\mathcal O}[a_t;b_t;c_t;e_t])$
其中参数的意义分别为：

$\mathcal R_t'$ ：全景观测的视觉图像 $\mathcal R_t$ ，使用在ImageNet上预训练的ViT-B/16提取的视觉特征表示为 $\mathcal R'_t$ ；
$\mathcal N(\mathcal R_t')$ ：候选路径点的观测特征（The candidate waypoints）
$a_t$ ：视图的相对角度编码， $a_t=(sin\theta^a_t,cos\theta^a_t,sin\varphi^a_t,\cos\varphi^a_t)$ ，其中 $\theta^a_t$ 和 $\varphi^a_t$ 是相对于智能体当前方向的航角（heading）和仰角（elevation）；
$b_t$ ：可观测路径点与当前智能体之间的线距离；
$c_t$ ：智能体和起始点的相对角度编码， $c_t=(sin\theta^c_t,cos\theta^c_t,sin\varphi^c_t,\cos\varphi^c_t)$ ；
$e_t$ ： $e_t=(dist_{line}(\mathcal V_0, \mathcal V_t)+dist_{traj}(\mathcal V_0,\mathcal V_t)+dist_{step}(\mathcal V_0,\mathcal V_t))$ ， $dist_{line}$ 表示智能体与起始点之间的直线距离， $dist_{traj}$ 表示轨迹长度， $dist_{step}$ 表示动作步长；
$L N$ 表示归一化层， $W^{\mathcal O}_1$ 和 $W^{\mathcal O}_2$ 为可学习的参数

之后将一个"stop"token $\mathcal O_{t,0}$ 添加到 $\mathcal O_t$ ，之后传入两层transformer做特征映射，得到 $\mathcal O'_t$

图记忆编码

在导航的每一步，我们需要将每个单元格中的多个网格特征居合道一个编码向量（embedding vector）中。由于导航环境的复杂性，每个单元格区域内的大量网格特征并不都是智能体完成导航所需要的，智能体需要更多地与当前指令高度相关的关键信息来理解环境，因此，我们提出了一种指令关联方法来聚合每个单元中的特征。具体地来说，对于每个单元格cell中的网格特征 $\mathcal M^{rel}_{t,m,n}=\{\hat g_{t,j}\in\mathbb R^D\}^J_{j=1}$ ，其中对应的坐标 $\{P^{rel}(\hat g_{t,j})\}^J_{j=1}$ 都在第 $m$ 行、第 $n$ 列的单元格cell内，单元格内的特征总数为 $J$ ，我们通过计算相关矩阵 $A$ 来评估每个网格特征与导航指令的相关性：
$A=(\mathcal M^{rel}_{t,m,n}W^A_1)(\mathcal W'W^A_2)^T$
其中 $W^A_1$ 和 $W^A_2$ 为可学习的参数。之后，我们在A上计算逐行的最大池化，用于评估每个网格特征与指令的相关性：
$a_j=max(\{A_{j,l}\}^L_{l=1})$
最后，我们将每个单元格内的网格特征聚合成一个编码向量 $E_{t,m,n}$ ：
$\eta=softmax(\{\alpha_j\}^J_{j=1})\\ E_{t,m,n}=\sum^J_{j=1}\eta_j(W^E\hat g_{t,j})$
其中 $W^E$ 为可学习的参数，为了表示空间关系，我们在网格记忆图中引入了位置信息，具体地来说，在每个单元中心和智能体之间，我们表示线距离为 $q^M_t$ ，表示相对航角位 $h^M_t=(sim\Phi^M_t,cos\Phi^M_t)$ ，图特征可以表示为：
$M_t=LN(E_t)+LN(W^M[q^M_t;h^M_t])$
其中 $W^M$ 为可学习的参数。

导航轨迹编码

为了实施全局动作规划，我们进一步GridMM中引入导航轨迹编码模块（类似于DUET算法），在时间步 $t$ 处，智能体接收到路径点 $\mathcal V_t$ 处的全景图像特征 $\mathcal O_t'$ ，之后对 $\mathcal O_t'$ 做全局平均池化（沿视图方向做平均池化），得到当前点的视觉表征 $Avg(\mathcal O_t')$ 。由于智能体也可以部分地观测到候选点，因此我们使用包含这些可导航路点的视图图像特征 $\mathcal N(\mathcal O_t')$ 作为他们的部分视觉表征。在路径点和当前智能体之间，我们使用 $q^{\mathcal T}$ 表示线距离，使用 $h^{\mathcal T}_t=(sin\Phi^{\mathcal T}_t,cos\Phi^{\mathcal T}_t)$ 表示相对的航角（heading），使用 $u^{\mathcal T}$ 表示动作步编码（action step embedding），所有的历史点特征 $\{Avg(\mathcal O_t'\}^{t-1}_{i=1}$ ，当前点的特征 $Aug(\mathcal O_t')$ 和候选点特征 $\mathcal N(\mathcal O_t')$ 共同组成导航轨迹：
$\mathcal{T}_{t}=[\{LN(Avg(\mathcal{O}_i^{^{\prime}}))+LN(W_1^{\mathcal{T}}[q_i^{\mathcal{T}};h_i^{\mathcal{T}}])+u_i^{\mathcal{T}}\}_{i=1}^t;\\ LN(\mathcal{N}(\mathcal{O}_t^{^{\prime}}))+LN(W_2^{\mathcal{T}}[q_{\mathcal{N}}^{\mathcal{T}};h_{\mathcal{N}}^{\mathcal{T}}])+u_{\mathcal{N}}^{\mathcal{T}}]$
其中 $W^{\mathcal T}_1$ 和 $W^{\mathcal T}_2$ 分别表示可学习的参数，“stop” token $\mathcal T_{t,0}$ 被加入到 $\mathcal T_t$ 中，用于预测停止动作。

跨模态推理

下图中 $\mathcal M_t$ 为提取的特征集合， $\mathcal M^{rel}_{t}$ 为相对坐标下的投影特征， $\mathcal M^{rel}_{t,m,n}$ 为 $\mathcal M^{rel}_t$ 中一个cell内的子集， $M_t$ 是聚合后得到的特征图

如图2所示，我们将网格图特征和导航轨迹相连接 $[M_t;\mathcal T_t]$ ，之后使用跨模态transformer将指令特征 $\mathcal W'$ 和 $[M_t;\mathcal T_t]$ 融合，建模时空关系，生成 $[M'_t;\mathcal T'_t]$ ，在这里使用历史环境推理损失（Historical environment reasoning, HER）来优化该模块，损失的定义可见后文。

随后，使用4层跨模态transformer来建模视觉语言关系和时空关系。具体地来说，每个transformer层包括一个交叉注意力层和一个自注意力层，对于交叉注意力层，我们输入全景观测和导航轨迹编码 $[\mathcal O_t';\mathcal T_t']$ 作为查询向量，查询指令编码、导航轨迹编码、网格图特征 $[\mathcal W_t';\mathcal T_t';M_t']$ 。之后，自注意力层将全景观测编码和导航轨迹编码 $[\mathcal O_t';\mathcal T'_t]$ 作为输入，输出表示为 $[\hat{\mathcal O_t};\hat {\mathcal T_t}]$ 。

动作预测

流程图如下图所示：

我们基于候选观测 $\mathcal N(\hat O_t)$ 来预测局部导航分数：
$S^{\mathcal O}_t=FFN(\mathcal N(\hat {\mathcal O}_t))$
之后利用候选的可导航点 $\mathcal N(\hat {\mathcal T}_t)$ 来预测全局导航分数：
$S^{\mathcal T}_t=FFN(\mathcal N(\hat {\mathcal T}_t))$
其中 $FFN$ 为两层前馈网络， $S^{\mathcal O}_{t,0}$ 和 $S^{\mathcal T}_{t,0}$ 均为停止分数，在预测局部和全局动作分数时，我们使用两个独立的 $FFN$ 预测动作分数，之后参考DUET算法将两个动作分数做融合：
$S^{fusion}_t=\lambda_tS^{\mathcal O}_t + (1-\lambda_t)S^{\mathcal T}_t\\ \lambda_t=sigmoid(FFN([\hat{\mathcal O_{t,0}};\hat{\mathcal T}_{t,0}]))$

预训练、微调

预训练

根DUET类似，使用演示路径来进行预训练，使用常见的辅助任务损失：MLM、MVM（又称MRC）、SAP（与DUET一样）。

此外，本文还使用历史环境推理损失（Historical Environment Reasoning, HER）：需要智能体仅根据地图特征和导航轨迹特征来预测下一个动作，而不需要当前的全景观测：
$S^{HER}_t=FFN(\mathcal N(\mathcal T'_t))\\ \mathcal L_{HER}=\sum^T_{t=1}CrossEntropy(S^{HER}_t,\mathcal A_t)$