论文阅读笔记—GRM(Transformer)

GRM

与以前的双流跟踪器相比,新的单流跟踪管道允许模板和搜索区域之间更早的交互,取得了显著的性能提升。然而,现有的单流跟踪器总是让模板与所有编码器层中搜索区域内的所有部分进行交互。当提取的特征表示没有足够的区别性时,这可能会潜在地导致目标-背景混淆。为了解决这个问题,我们提出了一种基于自适应令牌划分的广义关系建模方法。本文提出的方法是一种基于注意力的变压器跟踪关系建模的广义公式,它继承了以前的两流和单流管道的优点,同时通过选择适当的搜索令牌与模板令牌交互,实现了更灵活的关系建模。引入了注意力屏蔽策略和Gumbel-Softmax技术,促进了令牌除法模块的并行计算和端到端学习。大量的实验表明,我们的方法优于双流和单流管道,并在六个具有实时运行速度的具有挑战性的基准测试中实现了最先进的性能。

one-stream pipeline 和two-stream pipeline

在这里插入图片描述two-stream pipeline使用并行的自注意力对每组tokens(模板或搜索tokens)中的关系进行建模。
one-stream pipeline通过统一的注意力块集成了两组tokens之间的交叉关系建模和每组tokens内部的自关系建模。

单流跟踪器允许模版和搜索区域之间更早的交互,可显著的提升模型性能。

引入了注意力屏蔽策略和Gumbel-Softmax技术,促进了令牌除法模块的并行计算和端到端学习。

双流跟踪器分别提取模版和搜索区域的特征,然后以顺序的方式建模模版和搜索区域的交叉关系。

文中提到:离散tokens分类是不可微的,阻碍了tokens划分模块的端到端学习?

很大比例的搜索tokens仍然始终参与与模板的交叉关系建模,这可能导致次优的特征聚合,因为当特征表示没有足够的区别性时,就会涉及不希望的交互。
在这里插入图片描述

单流管道允许通过每个编码器层的注意机制在模板tokens和搜索tokens之间自由交互,这有利于目标特定的特征提取。然而,在搜索区域内的大比例背景可能导致不希望的交叉关系,因为在一些早期层中没有提取高度区分的表示。注意机制虽然在本质上可以削弱不适当的交叉关系,但也可能造成不良影响。一方面,来自模板的一定数量的信息被聚合到属于背景或干扰物的搜索区域,这可能会增加目标识别的难度;另一方面,模板标记的表示可能会被来自不适当的搜索标记的信息分散,从而降低迭代更新过程中模板的质量。因此,对于模板来说,总是与每个编码器层中搜索区域内的所有部分进行交互可能不是最优的。

模版tokens与自身和目标tokens交互,背景tokens与自身和目标tokens交互,目标令牌与所有tokens交互。

为了实现我们的广义关系建模方法,我们需要一种方法来动态地将搜索令牌划分为类别ES或类别EA。为了实现这一点,我们为每个编码器层设计了一个可学习的预测模块。特别是,为了为搜索令牌提供与目标相关的线索,我们通过聚合所有具有全局最大池的模板令牌来生成目标感知的表示。然后将目标感知表示与每个搜索令牌连接起来。之后,我们将连接发送到轻量级多层感知器(MLP),用于预测属于类别ES和类别EA的搜索令牌的概率:
在这里插入图片描述
第一个障碍来自三个令牌类别的不同关系建模规则。通常,这三个类别的查询数和键数是不同的,这使得Eq.(2)、Eq.(3)和Eq.(4)中的三种注意操作很难并行化。在实践中,我们经验发现,如果对这三个类别分别进行注意操作,速度会明显减慢。受DynamicViT[34]的启发,我们采用了一种注意力掩蔽策略来解决这个问题
通过注意掩蔽加速。如3.3节所述,单独的注意力操作将成为运行速度的瓶颈。为了进行定量比较,我们评估了两种实现的推理速度。单独注意操作的速度为33 fps,而提出的注意掩蔽策略将其加速到45 fps。

本文提出了一种广义关系建模方法,该方法既继承了双流和单流变压器跟踪管道的优点,又具有更大的灵活性。引入了一种端到端的优化令牌分割模块,采用注意屏蔽策略实现自适应令牌分割。大量的实验和分析证明了该方法的有效性。

  • 14
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值