主要创新点:
- 提出了一个新颖的交叉关联网络建模学习独立任务表达,有效减少检测和ReID任务竞争,且增加任务之间的协同。
- 引入一个尺度感知网络来融合特征,从而提升不同尺度下的目标特征的弹性。
一、 相关介绍
首先剖析目前one-shot方法的过程的缺陷。
- 检测和ReID任务之间存在大量额外的计算:
当前one-shot方法以及将目标类别置信度,目标位置信息和ID信息都由一个Embedding表示,虽然有效,但是忽略了他们之间的区别。这个embedding的学习可能是模糊的,只为了追求一个任务最终性能的话,可能会导致另一个表现的下降。例如检测任务中需要相同类的不同目标的embedding具有相似的语义,而ReID任务可能需要学习两目标之间的区别性语义。 - MOT中的大尺度变化:
传统ReID任务中的图片大小一般固定为256×128,但是在多目标中,目标会逐帧动态的改变,因此需要具有尺度感知能力。但是,最近的one-shot方法都考虑的是使用单一的分辨率,缺少了缩放后目标的表示能力。
为了缓解竞争问题,CSTrack首先将检测和ReID任务进行解耦为两个独立的分支,用以学习独立任务表示。然后将给予两任务的特征使用自注意力进行自关联和交叉关联。自关联促进独立任务学习,交叉关联促进两者协同学习。同时为了结尾目标缩放问题,引入了一个尺度感知网络,即使用一个空间和通道注意力机制,作用于特征,从而提升不同分辨率下的目标相关的嵌入的影响,最后整合不同高分辨率的特征作为输出,帮助学习缩放感知表达。
二、 方法
基于JDE采用两个分支的结构来加强检测和ID embedding任务,如下图1。但是JDE的检测和IDembedding使用相同的特征作为输入。为了强化任务间的独立性,CSTrack改变了这个思想,受自注意力和多头嵌入机制启发,使用一个新颖的交叉关联网络(CCN)来解耦输入,如图2。对于ID embedding分支,考虑到JDE只是用1×1卷积作用于来自固定的分辨率的原始图像产生的特征图,缺少表示不同大小目标的能力,所以这里改良为一个规模感知自注意网络(SAAN)来进行不同分辨率特征融合,如图3。
2.1 交叉关联网络(CCN)
该网络用于学习检测和ReID任务的共性和特性。不同通道间的自关联映射关系来增强特征表示的个性,通过一个互相关机制共享两任务的特征来实现共性学习。
CCN结构如图2所示,设检测获得特征为
F
∈
R
C
×
H
×
W
F∈R^{C×H×W}
F∈RC×H×W。通过一个平均池化层获得统计信息
F
′
∈
R
C
×
H
′
×
W
′
F'∈R^{C×H'×W' }
F′∈RC×H′×W′。
T
1
T_1
T1和
T
2
T_2
T2是通过
F
′
F'
F′经过不同的卷积操作获得的两种特征图,将他们reshape为
{
M
1
,
M
2
}
∈
R
C
×
N
′
\{M_1,M_2\}\in R^{C×N'}
{M1,M2}∈RC×N′,其中
N
′
=
H
′
×
W
′
N' = H'×W'
N′=H′×W′。如图2,对
M
1
/
M
2
M1/M2
M1/M2和他们的转置分别进行矩阵乘法。最后通过一个row softmax层,获得每个任务的自相关权重映射
{
W
T
1
,
W
T
2
}
∈
R
C
×
C
\{W_{T_1} ,W_{T_2}\} ∈ R^{C×C}
{WT1,WT2}∈RC×C,最终计算结果为:
w
T
k
i
j
=
exp
(
M
k
i
⋅
M
k
j
)
∑
j
=
1
C
exp
(
M
k
i
⋅
M
k
j
)
,
k
∈
{
1
,
2
}
(1)
w_{T_{k}}^{i j}=\frac{\exp \left(\mathbf{M}_{\mathbf{k}}^{\mathbf{i}} \cdot \mathbf{M}_{\mathbf{k}}^{\mathbf{j}}\right)}{\sum_{j=1}^{C} \exp \left(\mathbf{M}_{\mathbf{k}}^{\mathbf{i}} \cdot \mathbf{M}_{\mathbf{k}}^{\mathbf{j}}\right)}, \mathbf{k} \in\{1,2\} \tag{1}
wTkij=∑j=1Cexp(Mki⋅Mkj)exp(Mki⋅Mkj),k∈{1,2}(1)
其中
w
T
k
i
j
w_{T_{k}}^{i j}
wTkij代表通道
i
i
i和
j
j
j在
T
k
T_k
Tk内的关系。
类似的在矩阵
M
!
M_!
M!和
M
2
M_2
M2的转置进行矩阵乘法,在通过row softmax层,获得交叉权重映射
{
W
S
1
,
W
S
2
}
∈
R
C
×
C
\{W_{S_1} ,W_{S_2}\} ∈ R^{C×C}
{WS1,WS2}∈RC×C:
w
S
i
j
=
exp
(
M
1
/
2
i
⋅
M
2
/
1
j
)
∑
j
=
1
C
exp
(
M
1
/
2
i
⋅
M
2
/
1
j
)
(2)
w_{S}^{i j}=\frac{\exp \left(\mathbf{M}_{\mathbf{1} / \mathbf{2}}^{\mathbf{i}} \cdot \mathbf{M}_{\mathbf{2} / \mathbf{1}}^{\mathbf{j}}\right)}{\sum_{j=1}^{C} \exp \left(\mathbf{M}_{\mathbf{1} / \mathbf{2}}^{\mathbf{i}} \cdot \mathbf{M}_{\mathbf{2} / \mathbf{1}}^{\mathbf{j}}\right)} \tag{2}
wSij=∑j=1Cexp(M1/2i⋅M2/1j)exp(M1/2i⋅M2/1j)(2)
w S i j w_{S}^{i j} wSij表示某个任务第 i i i个通道对另一个任务的第 j j j个通道的作用。
通过一个可训练的参数
λ
λ
λ,将两个权重融合,获得
{
W
1
,
W
2
}
∈
R
C
×
C
\{W_{1} ,W_{2}\} ∈ R^{C×C}
{W1,W2}∈RC×C:
W
1
/
2
=
λ
×
W
T
1
/
T
2
+
(
1
−
λ
)
×
W
S
1
/
S
2
(3)
\mathbf{W}_{\mathbf{1} / \mathbf{2}}=\lambda \times \mathbf{W}_{\mathbf{T}_{1} / \mathbf{T}_{2}}+(1-\lambda) \times \mathbf{W}_{\mathbf{S}_{1} / \mathbf{S}_{2}} \tag{3}
W1/2=λ×WT1/T2+(1−λ)×WS1/S2(3)
最后,将原始特征图 F F F重排序为 R C × N , N = H × W R^{C×N},N = H×W RC×N,N=H×W。分别和学习到的权重映射进行矩阵乘法,最终获得每个任务的增强表示,这种残差形式也可以防止信息丢失。
2.2 尺度感知注意力网络(SAAN)
如图3,通过SAAN来完成不同分辨率下的特征聚合,从而保证ID embedding的鲁棒性。首先将1/16和1/32比例的特征(相对于输入图像的大小)上采样为1/8,通过3 × 3卷积层进行特征编码。
为了增强目标相关特征,抑制背景噪声,引入空间注意力(SAM)来处理特征,如图3 (b)所示。
然后将不同的尺度的特征图concat到一起,送入由平均池化和最大池化组成的通道注意力模型(CAM)中,用以学习输入特征的不同统计信息,最后输出层是一个1D的卷积层和一个全连接层,然后通过元素相加来连接。
学习到的1D通道注意力映射是通过元素乘法在特征上应用的。最后使用3×3的卷积层将特征图投影到512个通道,即为 E ∈ R 512 × W × H E\in R^{512×W×H} E∈R512×W×H。在(x,y)出的目标锚的ReID特征 E x y ∈ R 512 × 1 × 1 E_{xy}\in R^{512×1×1} Exy∈R512×1×1可以由后续的ReID任务提取。ID训练损失和训练方法学习JDE。
三、实验
1.消融实验:
JDE和CSTrack的ID embedding特征的关联可视化比较(CSTrack可以获得一些具有辨别性的ID特征):
对比: