Adaptive Decontamination of the Training Set: A Unified Formulation for Discriminative Visual Tracking(SRDCFdecon)
训练集自适应去污:判别视觉跟踪的统一公式
本文是CVPR2016 Martin Danelljan关于改进跟踪问题训练数据的尝试,后期他的论文几乎都有引证这一篇。
原文摘要
近年来,基于检测的跟踪方法显示出了良好的性能。在这些方法中,跟踪模型很大程度上依赖于训练集的质量。由于标记训练数据的数量有限,需要由跟踪器本身提取和标记额外的样本。 由于遮挡、偏差和其他干扰,这通常会导致包含损坏的训练样本。现有的检测跟踪方法要么忽略这个问题,要么使用单独的组件来管理训练集。我们提出了一种新的通用方法,以减轻在跟踪检测框架中的训练样本损坏的问题。我们的方法通过评估样本的质量来动态地管理训练集。与现有的方法相反,我们提出了一个统一的公式,通过在目标外观模型和样本质量权值上最小化单一损失。
提出了一种跟踪模型与训练样本权值联合学习的新公式。我们的公式是通用的,可以集成到常见的监督学习方法中。
目前的训练集管理
- 直接丢弃较差样本
- 采用专门的组件进行管理
- 基于距离定义的样本优劣
- 为样本管理专门设计的滤波器
背景
监督学习的一般形式
考虑监督学习的训练样本一般形式:
{
(
x
j
,
y
j
)
}
j
=
1
n
\{ (x_j,y_j) \}^{n}_{j=1}
{(xj,yj)}j=1n,其中
x
j
∈
X
x_j\in\mathcal{ X}
xj∈X代表特征向量,
y
j
∈
Y
y_j\in\mathcal{ Y}
yj∈Y代表标签向量,对于跟踪问题,Loss函数经常定义为
J
θ
=
∑
k
=
1
n
L
(
θ
,
x
j
,
y
j
)
+
λ
R
(
θ
)
.
(
1
)
J_\theta = \sum_{k=1}^n L(\theta,x_j,y_j) + \lambda R(\theta).\qquad\qquad(1)
Jθ=k=1∑nL(θ,xj,yj)+λR(θ).(1)
其中,
L
:
Ω
×
X
×
Y
→
R
L:\Omega\times\mathcal{ X}\times\mathcal{ Y}\to\R
L:Ω×X×Y→R指出了
L
(
θ
,
x
j
,
y
j
)
L(\theta,x_j,y_j)
L(θ,xj,yj)对于训练样本
(
x
j
,
y
j
)
(x_j,y_j)
(xj,yj)与参数
θ
\theta
θ有关的训练损失,常量
λ
≥
0
\lambda\ge0
λ≥0用于控制正则化函数
R
:
Ω
→
R
R:\Omega\to\R
R:Ω→R.
对于可以使用上式的SVM或者DCF,可以令
y
j
=
0
y_j=0
yj=0作为背景、
y
j
=
1
y_j=1
yj=1作为前景。可用连续值
y
j
∈
[
0
,
1
]
y_j\in[0,1]
yj∈[0,1]标记,或者
Y
\mathcal{Y}
Y来标记边界盒的变化.我们重写(1)式以突出跟踪问题中时间采样的效果,令
(
x
j
k
,
y
j
k
)
(x_{jk},y_{jk})
(xjk,yjk)表示帧号
k
k
k的第
j
j
j个训练样本,假设在
k
→
{
1
,
.
.
.
,
t
}
k\to\{1,...,t\}
k→{1,...,t}帧中包含
n
k
n_k
nk个样本,
t
t
t代表当前帧,通常的,
k
k
k帧中提取的用于估计目标位置的正样本和负样本
(
x
j
k
,
y
j
k
)
(x_{jk},y_{jk})
(xjk,yjk),我们更新Loss的形式
J
θ
=
∑
k
=
1
t
α
k
∑
j
=
1
n
k
L
(
θ
,
x
j
k
,
y
j
k
)
+
λ
R
(
θ
)
.
(
2
)
J_\theta = \sum_{k=1}^t \alpha_k\sum_{j=1}^{n_k} L(\theta,x_{jk},y_{jk}) + \lambda R(\theta).\qquad\qquad(2)
Jθ=k=1∑tαkj=1∑nkL(θ,xjk,yjk)+λR(θ).(2)
其中,常量
α
k
≥
0
\alpha_k\ge0
αk≥0表示
k
k
k帧中样本的影响,
α
k
\alpha_k
αk增大会使得从
k
k
k帧中提取的
{
(
x
j
,
y
j
)
}
j
=
1
n
k
\{ (x_j,y_j) \}^{n_k}_{j=1}
{(xj,yj)}j=1nk具有更大权重。通常,DCF跟踪器的更新会使得样本权重逐渐下降,而SVM在处理时事实上也抛弃了它认为不合适的样本。
考虑跟踪问题的在线学习/在线推断特性,对于Tracker的在线参数更新,通常会有以下的问题:
- 由于目标旋转或变形等原因,不准确的跟踪预测会导致样本不对齐。这可能导致模型漂移或跟踪失败。
- 目标的部分或全部遮挡导致正样本被遮挡对象破坏。这是跟踪失败的一个常见原因,因为外观模型由于背景杂乱而受到污染。
- 扰动,如运动模糊,可以导致目标的扭曲视图。这些因素导致在学习过程中包含损坏的训练样本,从而降低了模型的判别能力。
目前已有方法
- 基于PSR(峰值旁瓣比,为最大置信分与周围得分(峰值指定邻域外)的标准差之比)的样本去除。
- 使用基于熵的最小化方法来确定最佳模型。该系统由当前跟踪模型和早期帧的快照组成。如果出现不一致,则选择具有最小熵准则作为新的跟踪模型。
- 通过基于时间和空间约束生成正样本和负样本来解决漂移问题。
- 提出一种策略,通过重新检查以前被拒绝的样本来更新培训集。
- 使用基于关键点的长期记忆组件,检测背景杂乱并刷新短期记忆。
本工作的三个假设
- 连续的权重值 对于运动模糊,部分遮挡的等情况的样本并未完全损坏,仍具有外观特性,二值化的处理往往会将其抛弃。
- 理想情况下,在更新特定培训样本(包括最近的框架)的重要性时,应考虑所有可用信息。
- 动态的样本优先,在目标快速变形和旋转的情况下,跟踪器应强调最近的样本的鲁棒性。动态先验知识是自底向上信息的补充,有望提高性能。
模型构建
我们考虑联合估计模型参数样本权重
α
k
\alpha_k
αk和外观模型
θ
\theta
θ,引入最小化联合损失
J
(
θ
,
α
)
J(\theta,\alpha)
J(θ,α)。
J
(
θ
,
α
)
=
∑
k
=
1
t
α
k
∑
j
=
1
n
k
L
(
θ
,
x
j
k
,
y
j
k
)
+
1
μ
∑
k
=
1
t
α
k
2
ρ
k
+
λ
R
(
θ
)
.
(
3
a
)
J(\theta,\alpha)=\sum_{k=1}^t \alpha_k\sum_{j=1}^{n_k} L(\theta,x_{jk},y_{jk})+\frac{1}{\mu}\sum_{k=1}^t \frac{\alpha_k^2}{\rho_k}+ \lambda R(\theta).\qquad\qquad(3a)
J(θ,α)=k=1∑tαkj=1∑nkL(θ,xjk,yjk)+μ1k=1∑tρkαk2+λR(θ).(3a)
满足:
α
k
≥
0
,
k
=
1
,
.
.
.
,
t
.
∑
k
=
1
t
α
k
=
1.
\alpha_k\ge0,k=1,...,t. \\ \sum_{k=1}^t\alpha_k=1.
αk≥0,k=1,...,t.k=1∑tαk=1.
当
μ
→
∞
\mu\to\infty
μ→∞相当于(3a)式中去除第二项,也就是
α
\alpha
α项没有进行正则化
当
μ
→
0
\mu\to0
μ→0,对于确定的
θ
\theta
θ有
α
k
→
ρ
k
\alpha_k\to\rho_k
αk→ρk,理解为后续帧几乎没有权重