Learning Multi-Domain Convolutional Neural Networks for Visual Tracking 论文理解
解决什么问题
物体追踪
本文创新点\贡献
- 提出了一个基于CNNs的多域学习框架,该框架将领域无关信息与领域相关信息分离开来,从而有效地捕获共享表达
- 框架被成功地应用于视觉跟踪中,其中通过多域学习预训练的CNN被在线更新到一个新的序列环境中,自适应地学习领域特定的信息。
本文IDEA来源
传统的学习方法不行,前景和背景的物体不固定,经常变换,所以直接学习是不行的,所以就想找最基本的泛用的视频依赖
方法
从大量的数据集中寻找共享的target的表达,每个domin独立训练,做BCE二值分类,在每次迭代中更新共享层,这样就能在所有的序列中共享捕获的公共信息
方法概述
在第一帧周围生成很多正样本和负样本,然后后面的帧根据前面的target的bbox来用高斯分布生成一些框,再用网络生成每个框的分数,分数高的给long-term做更新,低的给shrot-term做难负例挖掘,然后用网络对这些框都回归一下(一种方法),生成一个好bbox。
Learning Algorithm
为了提取满足这些公共属性的有用特性,通过合并一个多域学习框架将领域独立的信息与领域特定的信息分离开来
Tracking Control and Network Update
使用long-term收集的阳性样本,定期进行长期更新,当检测到潜在的跟踪失败(当估计的目标被归类为背景)时,就会在短期内使用阳性样本进行短期更新
怎么做的?
答:根据分数来选择
观测到和观测不到的情况下,都是用短期来观测负样本,这是因为老的负样本一般跟现在帧无关了。
就是长期更新获取很多帧,几乎是全部,而短期更新只取最近的几帧,这样的负样本对现在更有用,也是做了个对比实验?
答:负样本做难负例挖掘
所以长期和短期的执行是根据target外观变化决定的(外观变化反映到分数的生成上)。在前面的target周围估计一些target的候选框
x
1
,
.
.
.
,
x
N
x^1,...,x^N
x1,...,xN,然后获得positive分数
f
+
(
x
i
)
f^+(x^i)
f+(xi)和negative分数
f
−
(
x
i
)
f^-(x_i)
f−(xi),从里面positive分数最大的候选框:
x
∗
=
arg max
x
i
f
+
(
x
i
)
x^* = \argmax_{x^i}f^+(x^i)
x∗=xiargmaxf+(xi)
Hard Minibatch Mining
图
上
的
蓝
框
都
是
难
负
例
图上的蓝框都是难负例
图上的蓝框都是难负例
大多数负样本没用,少数负样本有用,做了难负例挖掘,所以训练的样本由
M
+
M^+
M+和
M
h
−
M^-_h
Mh−组成,其中
M
h
−
M^-_h
Mh−是
M
−
M^{-}
M−中分数最高的几个。
Bounding Box Regression
因为前面的作坊会在target周围找很多positive框,所以没有很紧密的bbox,用了另一种的方法来提高bbox精准度:
在给定测试序列第一帧的情况下,利用目标位置附近样本的conv3特征,训练了一个简单的线性回归模型来预测精确的目标位置,第一帧回归出来的框只要大于0.5分的
边界盒回归模型只在第一帧进行训练,因为在线更新非常耗时,考虑到其风险,对回归模型的增量学习可能没有太大帮助
就是说专门建了一个模型做第一帧的框的回归,生成了很多,为后面的做准备
执行细节
w
1
:
5
w_{1:5}
w1:5是预训练的,
w
6
w_6
w6是随机初始化的,只有权重
w
4
:
6
w_{4:6}
w4:6是更新的
T
s
,
T
l
T_s,T_l
Ts,Tl是短期
t
s
=
20
t_s=20
ts=20周期和长期
t
l
=
100
t_l=100
tl=100周期的帧的index的集合。
Target candidate generation:
每帧画
N
=
256
N=256
N=256个采样,
x
t
i
=
(
x
t
i
,
y
t
i
,
s
t
i
)
,
i
=
1
,
.
.
.
,
N
x^i_t=(x^i_t,y^i_t,s^i_t),i=1,...,N
xti=(xti,yti,sti),i=1,...,N,都是对上一帧的target最的位移和缩放,这些采样服从高斯分布,平均值是上一帧,协方差是对角矩阵
(
0.09
r
2
,
0.09
r
2
,
0.25
)
(0.09r^2,0.09r^2,0.25)
(0.09r2,0.09r2,0.25),其中
r
r
r是上一帧的宽和高的平均值
宽高放一起算平均值?
训练
离线学习:
每帧50个正采样,200负采样,正的分数
≥
0.7
\geq 0.7
≥0.7,负的分数
≤
0.5
\leq 0.5
≤0.5 IoU,
在线学习:
这会采样的对象是估计的target bbox,
S
t
+
=
50
S^+_t=50
St+=50,
S
t
−
=
200
S^-_t=200
St−=200,0.7和0.3的分别oiu
其他参数:
第一帧
S
1
+
=
500
S^+_1=500
S1+=500,
S
1
−
=
5000
S^-_1=5000
S1−=5000
mini-batch中 M + = 32 M^+=32 M+=32正, 从 M − = 1024 M^-=1024 M−=1024负中挑 M h − = 96 M^-_h=96 Mh−=96
总结
感觉并没有什么收获