单目标追踪——【Transformer】Transformer Tracking


Transformer这个香饽饽怎么能不用来迁移到目标追踪里呢。
本篇文章分析TransT。

Transformer Tracking.

文章侧重点

这篇文章是利用Transformer设计了一个新的基于注意力的特征融合网络和一个Siamese结构的集成该融合网络的追踪方法TransT。 在TransT中该融合网络以替换传统Siamese框架中的correlation相关操作。
几个值得注意的点:

  • 特征融合网络由两个模板组成:基于自注意力的上下文增强模块 + 基于交叉注意力的特征增强模块。两个都是在增强特征。 不过回想Siamese网络结构中常用的naive correlation、depth-wise correlation、pixel-wise correlation都是在用提取的Template特征作为核来对Search特征进行增强,只是操作不同罢了【文中分析,原有的correlation是一种局部的线性的匹配过程,会导致语义信息丢失,陷入局部最优】。
  • TransT的追踪结构也挺简单的:Siamese型的共享backbone网络、基于注意力机制的融合网络、分类和坐标回归预测头。
  • 其实从可视化结果来看,TransT的Search特征的注意力还比较集中在目标上,但是Template特征因为引入Search特征,感觉Template的注意力被分散了。作者在文中说这是个奇怪的分布。所以这种特征设计网络其实感觉有一点草率了,不过Encoder和Decoder堆叠这么多,效果肯定也不会差。

网络结构

上下文增强模块

在这里插入图片描述
这个模块主要就是多头自注意力机制+位置编码Sin函数。与原始的Transformer中的多头自注意力机制一样。所以这个模块叫上下文语境的增强模块也正是因为Transformer中Encoder的自注意力的全局特性。

交叉特征增强

在这里插入图片描述
这个模块应用了Transformer的Decoder的多头交叉注意力机制、Sin位置编码和前馈神经网络(FFN)。之所以不索性去掉FFN,因为作者认为FFN模块增强了模型的拟合能力。
【不过在上一篇Transformer meets Tracking(TMT)中,有做关于FFN的消融实验证明FFN提升不多反而参数敏感容易坏事。这篇文章的消融实验关注于模块有无,倒也没这么细,不过我相信FFN肯定比TMT中重要啦】

TransT网络结构

在这里插入图片描述
这个网络结构倒也中规中矩,特征提取+特征融合+特征解析。最后在取响应最大生成边界框之前还应用了一个后置操作——窗口惩罚,相当于给离上一帧位置过远的响应小权重,因为每隔一帧物体不可能移动过远。
实际上后置处理都是超参敏感的,然鹅在消融实验中验证的时候可以看到,有窗口惩罚比没窗口惩罚的效果(AUC)上升2%,所以调好参数后置操作还是可以滴。

可视化结果分析

文中可视化了注意力模块的结果,TransT的网络结构中的特征融合网络一共堆叠了4层ECA和CFA模块。可视化结果也包含了4层。

n=1

在这里插入图片描述
n=1是相当于经过ECA的自注意力结果;经过ECA-CFA的交叉注意力结果

  • 第一行是Search区域的自注意力机制,这时候还没有模板信息,所以注意力主要放在前景信息中,简单区分前后景。
  • 第二行是模板的自注意力机制,这时候模板也是对自身应用注意力,提取了模板中的目标特征信息。
  • 第三行是Search区域作为query的交叉注意力机制,模板的自注意力结果作为keyvalue,这时候注意力区域开始集中在目标小蚂蚁上。
  • 第四行是模板的交叉注意力机制,模板作为query的交叉注意力机制,Search区域的自注意力结果作为keyvalue。特征加强在小蚂蚁尾部,因为相对应的Search特征那部分也比较明显。简单来说就是,在模板特征中引入了Search自注意力特征,反而有点干扰。

n=2

在这里插入图片描述
n=2是相当于经过ECA-CFA-ECA的自注意力结果;经过ECA-CFA-ECA-CFA的交叉注意力结果

  • 第一行是Search特征自注意力的结果,这时候可以看到注意力主要在目标上面了,周围小蚂蚁干扰物只有少部分注意力。
  • 第二行是Template特征自注意力结果,这时候注意力在目标的边界,照理说交叉注意力的结果才会主要在边界,这点有点奇怪。
  • 第三行是Search特征交叉注意力结果,注意力在目标的边界。
  • 第四行是Template特征交叉注意力结果,这个分布更奇怪了,我觉得是因为把Search区域的自注意力结果作为keyvalue,让原本的特征污染了。

n=3

在这里插入图片描述

n=3是相当于经过ECA-CFA-ECA-CFA-ECA的自注意力结果;经过ECA-CFA-ECA-CFA-ECA-CFA的交叉注意力结果

  • 第一行是Search特征自注意力的结果,这时候可以看到注意力已经大部分在目标上面了。
  • 第二行是Template特征自注意力结果,这时候注意力在目标的边界,但是有点涣散,感觉是被Search特征干扰了。
  • 第三行是Search特征交叉注意力结果,注意力在目标的边界,比n=2的时候有加强。
  • 第四行是Template特征交叉注意力结果,这个分布稍微正常点了,集中在小蚂蚁尾部。

n=4

在这里插入图片描述

n=4是相当于经过ECA-CFA-ECA-CFA-ECA-CFA-ECA的自注意力结果;经过ECA-CFA-ECA-CFA-ECA-CFA-ECA-CFA的交叉注意力结果

  • 第一行是Search特征自注意力的结果,这时候可以看到注意力已经全部在目标上面了,抗干扰牛。
  • 第二行是Template特征自注意力结果已经涣散了,说明当上一层的Template的交叉注意力本来就有点奇怪了,再自注意力效果只会更奇怪。
  • 第三行是Search特征交叉注意力结果,注意力在目标的边界。
  • 第四行是Template特征交叉注意力结果,这个分布更奇怪了,这时候作为keyvalue的Search区域的自注意力结果都分布在中间,所以注意力在中间。但是感觉这个交叉注意力不该关注边界吗?奇奇怪怪。

强强觉得奇怪吗?

  • 4
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
基于transformer的遥感图像区域分割是一种利用transformer模型来进行遥感图像的语义分割的方法。在这种方法中,transformer被用来对图像中的不同区域进行建模和分类,以实现对图像中不同地物的准确分割。 在基于transformer的遥感图像区域分割方法中,通常会使用Swin Transformer模型。Swin Transformer模型通过建立patch token之间的关系来减少内存开销,并采用规则窗口和移位窗口的交替执行策略来增强全局建模能力。然而,这种方法在处理遥感图像中地物遮挡导致的边界模糊时可能存在一定的局限性。 为了进一步增强信息交换并编码更精确的空间信息,一些研究提出了跨W-Trans block和SW-Trans block的Spatial Information Module (SIM)。SIM通过在两个空间维度引入注意力,考虑像素之间的关系,从而使Transformer模型更适合用于遥感图像分割任务。 另外,为了改善对具有密集小尺度对象的遥感图像进行语义分割的效果,一些方法在Swin Transformer的patch token下采样中设计了特殊的下采样策略,如FCM。这种下采样策略可以避免丢失许多细节和结构信息,从而提高小尺度对象的分割效果。 综上所述,基于transformer的遥感图像区域分割方法利用transformer模型来对遥感图像中的区域进行建模和分类,并通过一些改进策略来提高分割效果。<span class="em">1</span><span class="em">2</span><span class="em">3</span>

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值