视觉导航（二）VISUAL TRANSFORMER NETWORK FOR OBJECT GOAL NAVIGATION

本文链接：https://blog.csdn.net/hbwfgt/article/details/129236549

VTNet是一种用于对象目标导航的新型网络，通过结合DETR进行物体特征提取，利用预训练机制学习视觉表示与导航信号的关联。它包括空间增强局部描述符和位置全局描述符，以更好地理解和利用图像中的对象关系和空间信息。预训练过程通过模仿学习优化模型，使其产生的特征指令更符合导航任务需求。实验结果显示VTNet在导航性能上有显著提升。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

VTNET: VISUAL TRANSFORMER NETWORK FOR OBJECT GOAL NAVIGATION

Abstract

本文使用视觉Transformer网络(VTNet)以学习更好的视觉表示来指导导航任务。VTNet在视觉导航中的优点有两个：视野中全部对象之间的关系都能被利用，目标以及图像区域的空间位置能够更好的使用。另外，本文使用了一个预训练机制将视觉表示与导航信号关联起来，学习导航策略。

Introduction

本文提出VTNet从视野图像中提取出图像描述符，然后使用预训练机制关联视觉表示和导航信号。本文的主要贡献是用两个新设计的空间描述符(a spatial-enhanced local descriptor and a positional global descriptor)作为key和query，然后将他们编码得到高效的视觉表示。

spatial-enhanced local descriptor：使用DETR提取各个物体的特征，包括外表，类别，bbox，置信度等，DETR的优点是能够自动建立各个物体之间的联系（自注意力中各个物体都会产生注意力），不需要再使用关系图。
positional global descriptor：将区域特征与区域位置关系（如bottom或者top）起来，探索导航信号与图像区域的关系。作者将整体的图像分成多个区域，并为每个区域加一个位置编码作为positional global descriptor。之后，为了学习目标实例与视野区域之间的关系，文中将spatial-enhanced local descriptor与positional global descriptor使用编码器和解码器联系起来。

为了让模型更好的收敛，这里使用预训练机制，通过模仿学习使用交叉熵损失保证解码器产生的特征是有意义的。

Method

在这里插入图片描述
DETR得到N个特征作为N个目标的信息，包括位置、置信度、类别以及外表，用他们作为spatial-enhanced local descriptor $\in \mathbb{R}^{N \times d}$

使用ResNet18得到全局特征，并将其划分为多个区域，每个区域加上一个位置编码。全局特征为 $\in \mathbb{R}^{hw \times d}$ 。

每一个positional global descriptor代表视野中一个区域，将 $G$ 和 $L$ 使用注意力机制得到相应区域的目标（即用区域作为query，各个目标作为key和value，相当于查询相应区域的目标）。
$softmax(\frac{GL^{T}}{\sqrt{d}}L)$

之后使用模仿学习监督编码器产生有效的特征指令。
$L_{vt}=CE(a_t, \hat{a})$
其中 $a_t$ 是模型预测的动作， $\hat{a}$ 是最优动作指令。预训练后，VTNet得到的特征会和定向导航信号强相关。

Experments

在这里插入图片描述
实验结果表明VTNet效果有了较明显的提升。