论文笔记Learning dynamic siamese network for visual object tracking

最新推荐文章于 2022-11-14 16:30:03 发布

YSQ是我的

最新推荐文章于 2022-11-14 16:30:03 发布

阅读量527

点赞数 1

分类专栏： # 目标跟踪文章标签：目标跟踪论文笔记孪生网络

本文链接：https://blog.csdn.net/u011609063/article/details/102062864

版权

目标跟踪专栏收录该内容

19 篇文章 1 订阅

订阅专栏

论文笔记Learning dynamic siamese network for visual object tracking

1. 标题及来源
2. 拟解决的问题
3. 解决方法
4. 实验结果
5. 存在的问题
6. 总结
7. 知识补充

1. 标题及来源

Learning dynamic siamese network for visual object tracking, ICCV, 2017

2. 拟解决的问题

1. 如何有效地学习目标外观的时间变化（efectively learn temporal variation of target appearance）
2. 如何排除复杂背景的干扰（exclude the interference of cluttered background）
3. 在解决1和2的基础上保持实时性

3. 解决方法

3.1 算法整体

在这里插入图片描述
图中橙线是该方法的网络结构图
1. 通过卷积网络提取第一帧中目标模板的特征，将得到的特征图记为 $f^l(O_1)$
2. 通过卷积网络提取第t帧中候选区域的特征，将得到的特征图记为 $f^l(Z_t)$
3. 将 $f^l(O_1)$ 与目标外貌变化参数 $V^{l}_{t-1}$ 进行点乘操作，得到第t帧中目标更新后的特征
4. 将 $f^l(Z_t)$ 与背景抑制参数 $W^{l}_{t-1}$ 进行点乘操作，得到第t帧中候选区域更新后的特征
5. 将更新后的两个特征进行相关操作，得到响应图，确定目标的位置

3.2 算法详细流程

在这里插入图片描述
RLR表示regularized linear regression(正则线性回归)，O表示target，Z表示search region， $f^l$ 表示孪生网络的第l层特征， $G_{t - 1}$ 表示和第t-1帧的Z同大小的图片，但是target在该图片的中心区域， $\overline{G}_{t-1}$ 表示对 $G_{t-1}$ 进行了背景抑制，即 $G_{t - 1}*W^l_{t - 1}$
a. 从当前帧(记为t)中裁剪出搜索区域，记为 $Z_t$
b. 根据上一帧的响应图( $S^l_{t-1}$ )得到上一帧的 $O_{t-1}, G_{t-1} c. 使用孪生网络提取第t-1帧$ O_{t - 1} $的特征，将第 l 层特征记为 F d . 同理提取第 1 帧$ O_1 $的特征，将其记为$ F_1$
e. 将 $F_1$ 和F输入到RLR单元学习外观变化参数V
f. 将 $G_{t - 1}$ 输入到右边那个分支中，通过点乘得到 $\overline{G}_{t - 1}$
g. 使用孪生网络分别提取 $G_{t - 1}和\overline{G}_{t - 1}$ 的特征，记为 $F_G和F_{\overline G}$
h. 将 $F_G和F_{\overline G}$ 输入到RLR单元中学习背景抑制参数W
i. 使用孪生网络提取第t帧search region的特征，记为 $F_z$
j. 将 $F_z*W$ 作为更新后的search region( $\widehat O$ )，将 $F_1 * V$ 作为更新后的target( $\widehat F_z$ )，两者进行相关操作即可得到响应图，从而确定目标的位置。

3.3 RLR

通过它可以计算 $V^l_{t - 1}和W^l_{t - 1}$
给定两个张量X和Y以及一个最优的线性变换矩阵R，使X和Y相似
$Y||^2 + \lambda ||T||^2$
*表示循环卷积
上述方程可以通过傅里叶变换快速求得R
在这里插入图片描述
外观变化参数V： 它的目的就是为了建模第一帧和第t-1帧的变化来建模目标的变化，然后更新target，使其能得到好的模板。它可以套用上述公式，即T就是V，X是 $F^l_1$ ，Y是 $F^l_{t - 1}$

背景抑制参数W： 它的目的是为了抑制背景信息，它通过第t-1帧的响应图得到与第t-1帧search region同大小的图片，并且target在该图片的中心区域，记为 $G_{t - 1}$ ，将它与高斯响应图相乘得到 $\overline G_{t-1}$ 。它也可以套用上述公式，即T就是W，X是 $F^l_{G_{t-1}}$ ，Y是 $F^l_{\overline G_{t-1}}$
在这里插入图片描述

3.4 多层特征融合

在这里插入图片描述
$S_t = \sum_{l \in L}\gamma^l \bigodot S^l_t$ ，如上图所示。反向更新公式如下
$∇_{\gamma^l}L_t = S^l_t \bigodot ∇_{S_t} L_t$

4. 实验结果

4.1 OTB-2013

在这里插入图片描述
从图中可以发现
1. DSiamM在两个图中都排名第2，MDNet的效果最好，但是MDNet只有1fps左右，远小于DiamM的45fps
2. MDNet中使用了数据集中的序列训练他们的模型，所以相对可能会有点不公平，针对这点，作者复现了MDNet并将其重命名为R-MDNet
3. SINT+使用光流作为额外的运动信息，但是依旧比DSiamM的效果差
4. DSiamM和DSiam虽然比SiamFC慢，但是性能相对提升了7.9%和5.6%

在这里插入图片描述
从图中可以发现：
a.当图片质量较差(FM, MB, LR)时，算法的性能会受到较大影响

4.2 VOT-2015实验结果

在这里插入图片描述
从表中可以发现：
1. 虽然DSiamM的Overlap的分数比MDNet和DeepSRDCF低，但是DSiam的速度远超过它们
2. 虽然GOTRUN，Staple和SiamFC更快，但是它的Accuracy和Overlap更低

从图中可以发现：
a. DSiamM相比DSiam多了一次特征融合操作，但是下降了20fps，由此可以发现，它的特征融合相对较费时

4.3 消融实验的实验结果

在这里插入图片描述
左图
从图中我们可以发现：
a. 背景抑制模块移除后效果影响不是非常大

右图
从图中可以发现：
a. 用t-1帧的target替换第1帧的target会使性能下降，可能是因为跟踪时的错误累积导致
b. 固定融合权重性能下降，可能是因为不同位置的贡献程度是不一样的，当我们固定融合权重时，就认为它们的贡献程度是一样的，所以固定融合权重会使性能下降

4.4 失败样例

在这里插入图片描述
从图中可以发现：
在第4行中，DSiamM跟踪目标失败

5. 存在的问题

a. 当图片质量较差时，目标容易跟丢
b. 原文中的目标外观变化参数V，它的目的是缩小第1帧和第t-1帧之间的差距，但是它并不能保证此处的第t-1帧一定是正确的，但是当简单的使用t-1帧替换时，它的效果又较差，所以此处就很神奇了(可能是我水平有限，欢迎大家留言讨论)

6. 总结

该算法在SiamFC的基础上，引入了目标外观变化参数V和背景抑制参数W，通过在傅里叶频域中可以快速学习V和W，通过这两个参数更新target和search region，它的速度是45fps，在OTB2013上的AUC和precision分别是0.642和0.86，在VOT2015上的Accuracy，Overlap和Speed分别是0.5414，0.2804，6.4834；当融合了多层特征后，它的速度是25fps，在OTB2015上的AUC和precision分别是0.656和0.891，在VOT2015上的Accuracy，Overlap和Speed分别是0.5566，0.2927和4.3498。

7. 知识补充

7.1 circular convolution(循环卷积)

计算两个长度均为N的序列 $x_1(n)$ 和 $x_2(n)$ 的循环卷积，设
$x_1(n)=(1，2，3，4)$ ， $x_2(n)=(5，6，7，8)$ ，N=4，
将 $x_1(n)$ 按逆时针方向均匀分布在一个圆周上。将 $x_2(n)$ 按顺时针的方向均匀分布在另一个同心圆上，如下图a所示
在这里插入图片描述
然后求两圆上相应序列的乘积，并把V项乘积叠加起来作为n=0时刻的卷积值y(0)，即
$y (0) = 1 * 5 + 4 * 6 + 3 * 7 + 2 * 8 = 66$

若求n=1时刻的y(l)值，可将外圆的： $x_2(n)$ 固定，把内圆上的序列 $x_1(n)$ 顺时针旋转一个单位时间（或将 $x_1(n)$ 固定，把外圆上的序列 $x_2(n)$ 逆时针旋转），如上图b所示，然后把对应项的乘积叠加起来，即为所求。即 $y (1) = 2 * 5 + 1 * 6 + 4 * 7 + 3 * 8 = 68$
参考资料：百度百科

7.2 Fourier transformation(傅里叶变换)

时域： 以时间作为参照来观察动态世界的方法称为时域分析，就像我们经常看到的世界一样
频域： 当换一种方法观察世界，发现世界是永恒不变的，这种静止的世界叫做频域
例如音乐的曲调类似于正弦波，从时域的角度看它的曲调在不断变化，但是从频域的角度看则可以认为它只是静止的一个音符
频域基本单元： 把第一个频率最低的频率分量看做“1”，这个就算构建频域的最基本单元
傅里叶变换类型：

变换	简称	时间	频率
傅里叶级数	Fourier Series(FS)	连续，周期性	离散，非周期性
连续傅里叶变换	Fourier Transform(FT)	连续，非周期性	连续，非周期性
离散时间傅里叶变换	Discrete Time Fourier Transform(DTFT)	离散，非周期性	连续，周期性
离散傅里叶变换	Discrete Fourier Transform(DFT)	离散，周期性	离散，周期性

傅里叶级数(FS)的频谱： 可以理解为不同频率正弦波的振幅。如下图所示
在这里插入图片描述
傅里叶级数的相位谱： 正弦波中最高点与频率轴最小的水平距离就是时间差，将该值除以所在频率的周期，就得到了相位谱，如下图所示。

傅里叶变换(FT)： 可以认为对一个周期无限大的函数计算傅里叶级数。计算公式如下：
$F(\omega)=F[f(t)]=\int^{+\infty}_{-\infty}f(t)e^{-i\omega t}dt$

傅里叶变换的逆变换： $f(t)=F^{-1}[F(\omega)]=\frac{1}{2\pi} \int^{+\infty}_{-\infty}F(\omega)e^{-i\omega t}d\omega$
说明： $F(\omega)$ 表示频域函数， $f (t)$ 表示时域函数
$F(\omega)$ 表示频域函数， $f (t)$ 表示时域函数
离散时域傅里叶变换(DTFT)： 离散傅里叶变换(DFT)是离散时域傅里叶变换(DTFT)的特例。DTFT在时域上离散，在频域上则是周期的。DTFT可以被看做是傅里叶级数(FS)的逆变换
离散傅里叶变换(DFT)： 连续傅里叶变换在时域和频域上都离散的形式，且时域和频域都是周期性的。计算公式如下：
$X(k)=\sum^{N-1}_{n=0}x(n)e^{-j \frac{2\pi}{N}kn}(k=0,1,2,...,N-1)$
X(k)表示DFT变换后的数据，x(n)为采样的模拟信号，公式中的x(n)可以为复信号，即虚部为0，此时公式可以展开为：
$X(k)=\sum^{N-1}_{n=0} x(n) (cos2\pi k \frac{n}{N}-j sin2 \pi k \frac{n}{N}) (k=0, 1, 2, ..., N-1)$
参考资料：

7.3 SuperPixel

SuperPixel就是将一幅图像的像素分为稍微大一些的像素块。
参考资料：SuperPixel

YSQ是我的

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
2
评论
论文笔记Learning dynamic siamese network for visual object tracking

1. 标题及来源Learning dynamic siamese network for visual object tracking, ICCV 20172. 阅读目的理解标题中的dynamic的含义3. 领域Object tracking4. 拟解决的问题1. 如何有效地学习目标外观的时间变化（efectively learn temporal variation of targ...
复制链接

扫一扫