基于融合跨模态特征的视觉对话导航模型

mubei-123

已于 2025-02-27 19:10:21 修改

阅读量1.1k

点赞数 36

分类专栏： # 视觉语言导航文章标签：人工智能深度学习计算机视觉自然语言处理无人机

于 2025-02-26 11:44:40 首次发布

本文链接：https://blog.csdn.net/LFM3320829529/article/details/145856996

版权

视觉语言导航专栏收录该内容

17 篇文章

订阅专栏

前言

VLN和VDN的区别：

（1）VLN的语言指令清楚地描述了代理实现目标所需的步骤，而NDH代理则得到了一个模糊的提示，需要探索和对话来解决；

（2）VLN的轨迹是连续的，而由每个对话的子轨迹组成的NDH轨迹是分层的。

目前视觉对话导航存在的问题：

（1）仅使用低级视觉特征使代理模型很难在看不见的环境（即未在训练中使用的环境）中泛化；

（2）仅使用高级视觉特征的模型在看不见的环境中表现更好，然而，这些模型在可见环境中的性能显著下降，这意味着这些模型无法完全理解和记忆可见环境。

本文的主要贡献：

（1）用不同类型的高级语义特征替换了只使用低级视觉特征；

（2）研究了三种高级语义特征：ImageNet分类概率、检测到的对象区域和语义分割结果。

一、模型主要框架

1.1 任务描述

视觉对话任务由一个指令开始，后续代理和人类交流对话，然后逐步完成导航任务。

假设总共有 $k$ 轮对话。在第 $t$ 轮对话中：

（1）模型的输入：目标 $t_{0}$ ，历史对话 $H=D_{1}, D_{2}, ..., D_{i}, ...,D_{t-1}$ ，其中 $D_{i}=(Q_{i}, R_{i})$ ，表示代理的问题和人类回复的答案，当前时间步 $t$ 时的全景视图划分成的图像块集合 $\begin{Bmatrix} v_{1},...,v_{i} \end{Bmatrix}$ ，其中 $1\leq i\leq 36$ ；

（2）模型的输出：预测的动作A。

最后，形成一个序列 $< Q_{1}, R_{1}, A_{1}, ..., Q_{k}, R_{k}, A_{k}>$ 。

1.2 模型介绍

模型的整体框架如下图所示：

可以看出，主要由以下几部分组成：

（1）语言记忆编码器：提取历史对话和当前对话之间的相关性；

（2）特征融合解码器：得到四种视觉特征分别与最终编码和文本特征之间的注意力；

（3）决策制定模块：分别计算四种视觉特征的隐藏状态（通过LSTM实现）与文本特征之间的注意力，再得到四个预测值，平均后作为最终预测动作的输出分布。

二、难点

3.1 语言记忆编码器

首先，得到当前对话的文本特征：

（1）将当前对话 $D_{t}$ 表示成嵌入 $\begin{Bmatrix} w_{t,1}, ..., w_{t,T} \end{Bmatrix}$ ，其中 $T$ 是当前第 $t$ 轮对话的token数；

（2）将嵌入通过一个LSTM，得到隐藏状态 $\begin{Bmatrix} h_{t,1}, ..., h_{t,T} \end{Bmatrix}$ ；

（3）将最有一个隐藏状态 $h_{t,T}$ 作为当前对话的文本特征，即 $d_{t}=h_{i,T}$ ；

同理，可以得到历史对话 $H_{t}=D_{1}, ..., D_{t-1}$ 的文本特征 $H_{t}=\begin{Bmatrix} d_{1}, ..., d_{t-1} \end{Bmatrix}$ 。

得到当前对话和历史对话的特征后，接下来计算两者的相关性，主要过程如下：

（1）使用多头注意力来计算当前对话和各个历史对话之间的缩放点积注意力，计算完后进行concat连接；

（2）残差连接+层归一化；

（3）2层非线性多头感知器+残差连接+层归一化；

（4）concat连接；

最终，得到文本表示 $d^{ctx}_{t}$ 。

2.2 特征融合解码器

本工作使用四种视觉特征：

（1）低级是视觉特征：经过常规的神经网络处理后的特征图 $V_{t}=\begin{Bmatrix} v_{t,i} \end{Bmatrix},v_{t,i}\in \mathbb{R}^{2048}$ ；

（2）图像分类特征：从ResNet-152的冻结1000路分类层中提取ImageNet分类概率，并将概率作为视觉特征 $C_{t}=\begin{Bmatrix} c_{t,i} \end{Bmatrix},c_{t,i}\in \mathbb{R}^{1000}$ ；

（3）区域检测特征：使用Faster RCNN，将每个检测到的对象的置信度和区域的加权求和作为视觉特征 $O_{t}=\begin{Bmatrix} o_{t,i} \end{Bmatrix},o_{t,i}\in \mathbb{R}^{152}$ ；

（4）语义分割特征：每个场景的语义分割信息都来自Matterport3D数据集。没有直接使用语义图，而是将特征设计为每个图像中语义类的区域，得到视觉特征 $S_{t}=\begin{Bmatrix} s_{t,i} \end{Bmatrix},s_{t,i}\in \mathbb{R}^{42}$ 。