Correlation-Guided Attention for Corner Detection Based Visual Tracking
一、现有的角点检测的跟踪方法存在的局限性
- 直接检测角点的方法由于需要解决模糊问题而变得复杂,背景中对象也会有角点,跟踪器可能很难将它们与被跟踪对象的角点区分开来。
- 现有的方法没能够有效的探索模板和测试对象之间的关系。
- 现有的方法不能从更深层次网络强大的表示能力中获益,而是使用浅层骨干网络和轻量级沙漏网络。
二、框架
下面我将会根据网络框架的各个部分进行解释说明,
Siamese tracking
首先我们通过一个轻量级的孪生体系结构去估计目标的初始状态,然后利用目标状态去构造ROI并进行角点检测,而ROI的构造要借助边界框回归分支,得到估计后的包围盒之后,由于其可能并不能覆盖整个目标,因此通过扩大边界框来构造ROI。
相关公式如下:
假设ground truth包围盒G = {
x
1
,
y
1
,
x
2
,
y
2
x_1,y_1,x_2,y_2
x1,y1,x2,y2},那么网络偏移量图中单元格(
x
c
,
y
c
x_c,y_c
xc,yc)的期望输出值是
其中s表示的是网络的步长,k=s*s指的是归一化因子,这里采用了
L
1
L_1
L1损失函数计算期望输出与真实网络输出之间的loss。注意仅对正样本区域计算loss。
这里我们定义ground truth包围盒在偏离量图中的表示为
G
’
G^’
G’=(
x
1
/
s
,
x
2
/
s
,
x
3
/
s
,
x
4
/
s
x_1/s,x_2/s,x_3/s,x_4/s
x1/s,x2/s,x3/s,x4/s),因此
G
’
G^’
G’中的正样本区域
R
p
o
s
=
(
x
1
p
,
y
1
p
,
x
2
p
,
y
2
p
)
R^{pos}=(x_1^p,y_1^p,x_2^p,y_2^p)
Rpos=(x1p,y1p,x2p,y2p)具体计算如下:
其中
(
c
x
,
c
y
)
(c_x,c_y)
(cx,cy)表示的是
G
’
G^’
G’的中心点,
w
t
和
h
t
w_t和h_t
wt和htf分别是
G
’
G^’
G’的宽和高,
a
p
a_p
ap是衰减因子,以同样的方式改变衰减因子为
a
n
a_n
an可以计算出负样本区域
R
n
e
g
R^{neg}
Rneg,之后通过Logistic Regression计算其损失。
得到估计的包围盒之后,通过以下公式计算正方形ROI的边长
Channel-wise correlation-guided channel attention
这里我们采用通道相关操作来学习模板与ROI不同区域之间的相似度,然后从相似图中学习通道注意力,即如果一个通道的相似图响应较高,则说明该通道对于目标跟踪是有效的,应该被赋予更大的权重。
其过程用数学公式表示为:
Pixel-wise correlation-guided spatial attention
在这里我们在模板和ROI之间采用像素级相关来计算像素级的相似度,每个相似图表示的是模板特征图中的相应像素和ROI特征图中的所有像素的相似度,即不同的相似度映射分别突出目标的不同部分,因此整个相似度图集提供了目标的轮廓信息,该过程的数学表达如下:
其中i分别对应左上和右下两个角,H指的是沙漏网络,其包括一个下采样和一个上采样,下采样为了捕获全局信息增加感受野,而上采样是为了增加分辨率。
在得到通道和空间注意力之后,我们便可以得到增强后的ROI特征:
这两个分别表示用于检测左上角和右下角的特征。
小结:
可以看出相关导向注意力有两个优势,首先结合特定目标的信息增强特征,提高识别能力;其次,对角点区域进行高亮显示,有助于准确检测角点。
Corner detection
在特征增强后,我们通过预测两个角点的热图来预测目标角点,然后通过Soft-argmax来计算角点的坐标。其中热度图是通过几个卷积网络和插值层来不断的上采样特征和减少通道数,最终通过卷积网络生成,而Soft-argmax是通过sigmoid函数对热度图进行归一化,然后求期望值,我们可以看出热度图其实就是点(x,y)为角点的概率图,角点位置的期望值可通过以下公式求得:
其中h为归一化后的大小为
W
h
∗
H
h
W_h*H_h
Wh∗Hh的热度图,
p
^
=
(
p
x
^
,
p
y
^
)
\hat{p}=(\hat{p_x},\hat{p_y})
p^=(px^,py^)为角点的位置。其采用弹性网络损失函数。