VTNET: VISUAL TRANSFORMER NETWORK FOR OBJECT GOAL NAVIGATION
Abstract
本文使用视觉Transformer网络(VTNet)以学习更好的视觉表示来指导导航任务。VTNet在视觉导航中的优点有两个:视野中全部对象之间的关系都能被利用,目标以及图像区域的空间位置能够更好的使用。另外,本文使用了一个预训练机制将视觉表示与导航信号关联起来,学习导航策略。
Introduction
本文提出VTNet从视野图像中提取出图像描述符,然后使用预训练机制关联视觉表示和导航信号。本文的主要贡献是用两个新设计的空间描述符(a spatial-enhanced local descriptor and a positional global descriptor)作为key和query,然后将他们编码得到高效的视觉表示。
spatial-enhanced local descriptor:使用DETR提取各个物体的特征,包括外表,类别,bbox,置信度等,DETR的优点是能够自动建立各个物体之间的联系(自注意力中各个物体都会产生注意力),不需要再使用关系图。
positional global descriptor:将区域特征与区域位置关系(如bottom或者top)起来,探索导航信号与图像区域的关系。作者将整体的图像分成多个区域,并为每个区域加一个位置编码作为positional global descriptor。之后,为了学习目标实例与视野区域之间的关系,文中将spatial-enhanced local descriptor与positional global descriptor使用编码器和解码器联系起来。
为了让模型更好的收敛,这里使用预训练机制,通过模仿学习使用交叉熵损失保证解码器产生的特征是有意义的。
Method
DETR得到N个特征作为N个目标的信息,包括位置、置信度、类别以及外表,用他们作为spatial-enhanced local descriptor
L
∈
R
N
×
d
L \in \mathbb{R}^{N \times d}
L∈RN×d
使用ResNet18得到全局特征,并将其划分为多个区域,每个区域加上一个位置编码。全局特征为 G ∈ R h w × d G \in \mathbb{R}^{hw \times d} G∈Rhw×d。
每一个positional global descriptor代表视野中一个区域,将
G
G
G和
L
L
L使用注意力机制得到相应区域的目标(即用区域作为query,各个目标作为key和value,相当于查询相应区域的目标)。
A
t
t
e
n
t
i
o
n
(
G
,
L
=
s
o
f
t
m
a
x
(
G
L
T
d
L
)
Attention(G, L= softmax(\frac{GL^{T}}{\sqrt{d}}L)
Attention(G,L=softmax(dGLTL)
之后使用模仿学习监督编码器产生有效的特征指令。
L
v
t
=
C
E
(
a
t
,
a
^
)
L_{vt}=CE(a_t, \hat{a})
Lvt=CE(at,a^)
其中
a
t
a_t
at是模型预测的动作,
a
^
\hat{a}
a^是最优动作指令。预训练后,VTNet得到的特征会和定向导航信号强相关。
Experments
实验结果表明VTNet效果有了较明显的提升。