Siamese Transformer Pyramid Networks for Real-Time UAV Tracking

论文 代码

Motivation

本文着眼于移动平台的无人机目标跟踪,融合了 CNN 和 Transformer 的优点。具体来说,通过轻量的 shufflenet v2 来构建特征金字塔,并使用 Transformer 对其进行强化(特征融合),以构建一个鲁棒的目标外观模型。开发了一种具有横向交叉注意力的集中式架构,用于构建增强的高级特征图。此外,作者设计了 pooling attention module 减少 key 和 value 的数量进一步降低了 Transformer 的内存消耗和时间复杂度。提出的方法在 CPU 端运行速度可超过 30 FPS。

Method

图 2c 为本文提出的框架,注意作者没有直接迁移复杂的 transformer 编码器和解码器结构,而是利用编码器设计了基于注意力的特征金字塔融合网络来更有效地学习 target-specific 的模型。下面分别介绍各个模块。

Feature Extraction Network

特征提取网络输出 stage 3,4,5 降采样倍数分别为 8,16,32 倍的特征,然后将模板和搜索特征分别送入 Transformer Pyramid Network (TPN) 进行特征融合,将融合后的特征进行互相关。

其中,Γ 表示 TPN 模块,M 表示互相关结果。

Feature Fusion Network

Multi-head Attention 经典的 MHA 公式如下:

Pooling Attention MHA 的计算量如下

降低计算量的方法有三种:(1)减少 query 的数量,(2)减少维度 C,(3)减少 key 和 value 数量。(1)和(2)都会减少输入到后续预测头的特征维度(包括空间和通道),影响跟踪精度。因此我们选择(3),通过池化操作来降低 K 和 V 的空间尺寸。

为了进一步降低计算量,作者去掉了位置编码,原因包括:1)输入 token 的排列会受到最终互相关的约束;2)位置编码会占用额外的计算和存储资源。最终的 pooling attention block (PAB) 可以写成

图 3 对比了 PAB 和传统 MHA 的区别

Transformer Pyramid Network

为了利用同时具有低级信息和高级语义的特征金字塔,作者提出 Transformer Pyramid Network (TPN) 来构建具有高级语义的混合特征。TPN 如图 4 所示,输入特征金字塔\{P_3, P_4, P_5\},输出融合特征 \{P_3', P_4', P_5'\},中间包含若干个 TPN block。

TPN block 使用P_4作为所有特征层次的 query,产生 3 个具有不同池化尺度的组合,这些组合由 3 个并行的 PAB 模块处理。其中P_3, P_4, P_5的池化尺寸分别为 4,2,1(图 4 中似乎标反了)。三个尺度的输出直接相加然后送入两个自注意力的 PAB 中,得到最终的语义特征。整个过程用公式表示:

P_3, P_5直接恒等映射,以减少计算开销。PA block 可以有效地提高层次特征之间的相关性。TPN Block 重复 B 次,生成的特征用于后续互相关。预测头部分就是简单的无锚框分类回归结构,分类损失为交叉熵,回归损失为 GIOU loss 和 L1 loss。

Experiments

实现细节上,搜索特征和模板大小分别为 256 和 80,是目标大小的 4 倍和 1.5 倍,对应的特征金字塔尺寸为\{h_3^x=32, h_4^x=16, h_5^x=8 \}\{h_3^z=10, h_4^z=5, h_5^z=3 \}

Ablation Study

 

Attention 可视化。图 6 中的第二、三列对比了有无 TPN 的响应映射。如果没有 TPN 来学习区分特征,相关结果将变得分散,并且更容易漂移到干扰项。最后三列说明了金字塔特征之间的注意力图。低层级 (P3 到 P4,P4 到 P4) 之间的注意力在整个搜索区域提取了更多的局部信息,而高层级 (P5 到 P4) 的注意力更集中在目标的语义上。

SOTA Comparison

表 3 中 shufflenet 版本的速度在 CPU 上达到 32.1 FPS,alexnet 版本在 gpu 上速度 105FPS,且精度超过了使用 resnet50 的 SiamRPN++ 和 HiFT。

最后作者在真实场景中进行测试,不是很了解就不介绍了,感兴趣可以阅读原文。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值