视觉导航(二)VISUAL TRANSFORMER NETWORK FOR OBJECT GOAL NAVIGATION

VTNet是一种用于对象目标导航的新型网络,通过结合DETR进行物体特征提取,利用预训练机制学习视觉表示与导航信号的关联。它包括空间增强局部描述符和位置全局描述符,以更好地理解和利用图像中的对象关系和空间信息。预训练过程通过模仿学习优化模型,使其产生的特征指令更符合导航任务需求。实验结果显示VTNet在导航性能上有显著提升。
摘要由CSDN通过智能技术生成

VTNET: VISUAL TRANSFORMER NETWORK FOR OBJECT GOAL NAVIGATION

Abstract

本文使用视觉Transformer网络(VTNet)以学习更好的视觉表示来指导导航任务。VTNet在视觉导航中的优点有两个:视野中全部对象之间的关系都能被利用,目标以及图像区域的空间位置能够更好的使用。另外,本文使用了一个预训练机制将视觉表示与导航信号关联起来,学习导航策略。

Introduction

本文提出VTNet从视野图像中提取出图像描述符,然后使用预训练机制关联视觉表示和导航信号。本文的主要贡献是用两个新设计的空间描述符(a spatial-enhanced local descriptor and a positional global descriptor)作为key和query,然后将他们编码得到高效的视觉表示。

spatial-enhanced local descriptor:使用DETR提取各个物体的特征,包括外表,类别,bbox,置信度等,DETR的优点是能够自动建立各个物体之间的联系(自注意力中各个物体都会产生注意力),不需要再使用关系图。
positional global descriptor:将区域特征与区域位置关系(如bottom或者top)起来,探索导航信号与图像区域的关系。作者将整体的图像分成多个区域,并为每个区域加一个位置编码作为positional global descriptor。之后,为了学习目标实例与视野区域之间的关系,文中将spatial-enhanced local descriptor与positional global descriptor使用编码器和解码器联系起来。

为了让模型更好的收敛,这里使用预训练机制,通过模仿学习使用交叉熵损失保证解码器产生的特征是有意义的。

Method

在这里插入图片描述
DETR得到N个特征作为N个目标的信息,包括位置、置信度、类别以及外表,用他们作为spatial-enhanced local descriptor L ∈ R N × d L \in \mathbb{R}^{N \times d} LRN×d

使用ResNet18得到全局特征,并将其划分为多个区域,每个区域加上一个位置编码。全局特征为 G ∈ R h w × d G \in \mathbb{R}^{hw \times d} GRhw×d

每一个positional global descriptor代表视野中一个区域,将 G G G L L L使用注意力机制得到相应区域的目标(即用区域作为query,各个目标作为key和value,相当于查询相应区域的目标)。
A t t e n t i o n ( G , L = s o f t m a x ( G L T d L ) Attention(G, L= softmax(\frac{GL^{T}}{\sqrt{d}}L) Attention(G,L=softmax(d GLTL)

之后使用模仿学习监督编码器产生有效的特征指令。
L v t = C E ( a t , a ^ ) L_{vt}=CE(a_t, \hat{a}) Lvt=CE(at,a^)
其中 a t a_t at是模型预测的动作, a ^ \hat{a} a^是最优动作指令。预训练后,VTNet得到的特征会和定向导航信号强相关。

Experments

在这里插入图片描述
实验结果表明VTNet效果有了较明显的提升。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值