听说最近商汤的几个优秀跟踪器有可能要开源,赶紧好好读一下新的论文…
Li Bo, Wu Wei, Qiang Wang也不陌生了,SiamRPN和DaSiamRPN都见过了。直接从主要部分开始:
DaSiamRPN的增量学习
构建干扰集,
∣
D
∣
=
n
| \mathcal{D}|=n
∣D∣=n:
D
:
=
{
∀
d
i
∈
D
,
f
(
z
,
d
i
)
>
h
∩
d
i
≠
z
t
}
\mathcal{D} := \{\forall d_i \in \mathcal{D} , f(z,d_i)>h \cap d_i \neq z_t\}
D:={∀di∈D,f(z,di)>h∩di=zt}
Siamese 的深度网络可行性
通常的ResNet移植到跟踪问题没有取得很好的效果,那么分析Siamese架构
简单来说Siamese是对于exemplar分支和search分支做cross-correlation结果得到score map。其中模板分支z在初始帧获得。可以形式化的表现为下式:
f
(
z
,
x
)
=
ϕ
(
z
)
∗
ϕ
(
x
)
+
b
f(\mathbf{z}, \mathbf{x})=\phi(\mathbf{z}) * \phi(\mathbf{x})+b
f(z,x)=ϕ(z)∗ϕ(x)+b
那么在上式中隐含了两个要素:
- 经过收缩部件和特征提取后仍应当具有位移不变性,即: f ( z , x [ △ τ j ] ) = f ( z , x ) [ △ τ j ] f\left(\mathbf{z}, \mathbf{x}\left[\triangle \tau_{j}\right]\right)=f(\mathbf{z}, \mathbf{x})\left[\triangle \tau_{j}\right] f(z,x[△τj])=f(z,x)[△τj]
- 收缩部分对结构对称性有内在的限制 f ( z , x ′ ) = f ( x ′ , z ) f\left(\mathbf{z}, \mathbf{x}^{\prime}\right)=f\left(\mathbf{x}^{\prime}, \mathbf{z}\right) f(z,x′)=f(x′,z)
通过详细的分析,我们发现深度网络没有应用在Siamese架构下有两个原因。具体来说,一个原因是深层网络中的padding会破坏严格的平移不变性。另一个是RPN需要非对称特征来进行分类和回归。我们将引入空间感知采样策略来克服第一个问题。
那么对于没有padding环节的网络,通常人们设计浅层网络来执行跟踪任务。比如SiamFC、DCFNet、CFNet、SiamRPN、DaSiamRPN等。引入ResNet、MobileNet等深度网络将不可避免引入padding环节,我们假设其造成了空间偏差。
关于Padding影响的验证实验如下:
用SiamRPN替换ResNet-50作为backbone,对于训练数据集做均匀分布的位移数据增强(最大位移0,16,32)。对图1我们观察到中心偏移程度很强,而网络会学习到这种分布(由于自身padding造成的位移偏差分布),而后的实验说明训练数据的些许的位移会减少这种bias。
如上图采用64的位移效果最佳。消除了这种中心偏差,使得DeepNetwork用于Siamese架构成为可能。