许多RGB-T跟踪器试图利用自适应加权方案(或注意力机制)来实现鲁棒特征表示。与这些工作不同的是,我们提出了一种新的动态模态感知滤波器生成模块(MFGNet),在实际跟踪中,通过自适应调整卷积核来增强可见光数据和热数据之间的信息通信。给定图像对作为输入,首先用骨干网对其特征进行编码。然后,我们将这些特征映射连接起来,生成带有两个独立网络的动态模态感知滤波器。使用可见滤波器和热滤波器分别对其对应的输入特征图进行动态卷积运算。受残差连接的启发,将生成的可见和热特征图与输入特征图进行汇总。增强后的特性映射将被输入RoI对齐模块,以生成实例级特性用于后续分类。为了解决严重遮挡、快速运动和视野外的问题,我们提出利用一种新的方向感知目标驱动注意机制进行局部和全局联合搜索。空间和时间递归神经网络用于捕获方向感知上下文,以实现准确的全局注意力预测。在3个大型RGB-T跟踪基准数据集上的实验验证了本文算法的有效性。本文的项目页面可以在https://sites.google.com/view/mfgrgbttrack/上找到。
Review in Introduction (diss someone)
-
Resort to multimodal data to improve the performance
-
Modal the relations between dual modalities using
a. element-wise addition 22
b. concatenation 23
c. convolution operation 24
d. considering the quality of different data 14 18 20 25 26
e. supressing the noise in the bounding box 14 20 25
f. selecting useful features 26 -
Utilize attention mechanisms to learn different modality weights and achieve better tracking results 27
-
However, …
-
Dynamatic convolutional operation + spatial and channel attention
Review in Related Work (small scale)
- RGB-T tracking
- dynamatic filter generation 根据输入数据学习特征参数
- visual attention 来源于认知神经系统
- LSTM 序列数据处理
Method
A. Problem Formulation
- i-th input RGB and thermal image pairs I v i , I t i I_v^i, I_t^i Ivi,Iti
- RGB-T tracking task is formulated as a classification problem
- 区分给定的N个前景或背景的 ( x 1 , i , x 2 , i , . . . , x N , i ) (x_{1,i},x_{2,i},...,x_{N,i}) (x1,i,x2,i,...,x