摘要:
利用三个attention机制将siamFC网络结构改成端到端的网络,可以缓解过拟合,可提升网络的判别能力和适应能力。这三种attention的提出使得离线训练的特征表示可以适应在线跟踪的目标。
三种attention机制
1、 General Attention:(负责学习所有跟踪目标的共性)【利用先验知识】
在训练的时候得到的一个包含训练样本通用信息的特征图,得到不同的跟踪目标之间的共同的特征。一幅图的不同位置所表达的重要性不同, 该注意力机制要满足中心位置权重大于周围位置,比如高斯分布,实质是利用了目标在目标图像中心位置的先验知识。通过学习生成一个类似高斯框的结构,表征目标的空间信息(可理解为传统相关滤波中的期望的高斯响应的Map)。
2、 Residual Attention:(负责学习不同跟踪目标的差异性)【微调】
通过沙漏网络得到跟踪目标之间的差异的特征图。用于表征目标的语义信息,增加判别能力。
3、 Channel Attention:(负责是模型适应不同的contexts)【SEnet】
经过卷积神经网络提取的特征通常包含多个通道channel,不同的通道得到的特征图不一样,每一层通道代表某种特定的模式信息。在不同场景下,不同通道可能具有不同的具有相异的显著性,通过通道注意力机制来选取对跟踪效果比较好的通道,剔除噪声通道。
4、weighted cross correlation
用加权相关滤波表示跟踪目标的特征,找到一个响应值最大的跟踪框。
Dual attention是Residual Attention和General Attention相加的结果,Dual Attention与Channel Attention进行加权相乘得到融合结果。