SiamFC：利用全卷积孪生网络进行视频跟踪

最新推荐文章于 2025-09-21 08:15:57 发布

原创最新推荐文章于 2025-09-21 08:15:57 发布 · 1.8w 阅读

153 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #视频跟踪

深度学习专栏收录该内容

60 篇文章

订阅专栏

介绍SiamFC模型，一种基于孪生网络的全卷积结构，用于视频目标跟踪。模型包含两个权值共享的分支，分别处理模板图像和搜索图像，通过互相关层生成响应图定位目标。

📝论文下载地址

SiamFC论文地址
 SiamFC论文百度网盘下载地址 ❗提取码：7309❗
SiamFC论文翻译(水印)百度网盘下载地址 ❗提取码：4ysm❗
SiamFC论文翻译(无水印PDF+Word)下载地址

🔨代码下载地址

[GitHub]
[百度网盘] ❗提取码：yaph❗

👨‍🎓论文作者

Luca Bertinetto、Jack Valmadre、Joao F. Henriques、Andrea Vedaldi、Philip H. S. Torr Department of Engineering Science, University of Oxford

📦模型讲解

[模型结构]

一说到孪生，大家或许会想到两个一样的东西。在SiamFC的网络结构中，如下图所示，具有两个权值共享的分支。下图中，z为127×127的模板图像相当于我们要追踪的目标，x为256×256的搜索图像，我们所要完成的就是在x中找到z的位置。

SiamFC有两个分支对应两个输入为z和x，将他们同时输入进行φ的计算，这里的作用就是进行特征提取，分别生成6×6×128和22×22×128的featuremap。φ所对应的特征提取网络采用的是AlexNet，其结构如下：

之后会将生成的featuremap输入互相关层生成heatmap，也叫做相应图，实际上会进行如下的计算：
$φ(x)+b\mathbb{I}$ 其中 $b\mathbb{I}$ 为每个位置对应的值，’ $*$ ’是进行的卷积运算，通过卷积运算提取在x中与z最相似的部分。如下图所示，卷积的左边就相当于x的featuremap，卷积的右边就是两种不同的z所对应的featuremap，将两者互相卷积生成相应图，响应值最高的位置就对应着z可能的位置。在SiamFC结构图中，输入的搜索图像中有红蓝两个区域在经过网络后与heatmap中的红蓝响应值相对应。

在这会出现一个问题，网络生成的是17×17 的heatmap，而输入x是255×255的搜索图像，怎样将两者的位置进行映射呢。这里，作者将17×17的heatmap进行双三次插值生成272×272的图像，来确定物体的位置。但是为什么不生成255×255的图像呢，作者在论文中说，这样做是由于原始图像相对比较粗糙，为了使定位更加准确。

[模型输入]

孪生网络有两个分支对应两个输入，z与x的大小并不是任意输入的，如下图所示

上面的三张图是网络输入的模板图像z，下面对应的是网络输入的搜索图像x，红色为当前的所在帧的bounding-box。对于模板图像来说，根据第一帧的groundtruth会得到目标的(x_min,y_min,w,h)四个值，会通过以下公式生成模板图像的大小：
$s (w + 2 p) \times s (h + 2 p) = A$ $p=\frac{w+h}{4}$ 其中 $A=127^2$ ，s是对图像进行的一种变换，先将包含上下文信息的 $(w + 2 p) \times (h + 2 p)$ 的图片扩展，然后进行resize，生成127×127的模板图像(代码中有一个resize的过程)。
对于搜索图像x来说，会从整张图片中裁剪出255×255的图片，裁剪的中心为上一帧预测的bounding-box的中心。作者为了提高跟踪性能，选取了多种尺度进行预测。最初的SiamFC为5种尺度 $1.025^{\{-2,-1,0,1,2\}}$ ，其中255×255对应尺度为1。后来，为了提升网络的FPS，作者又提出了存在3种尺度的SiamFC-3s。
当模板图像和搜索图像不够裁剪时，会对不足的像素按照RGB通道的均值进行填充。

[损失函数]

首先作者采用了Logistic损失函数：
$\ell(y,v)=log(1+exp(-yv))$ $L(y,v)=\frac{1}{|D|}\sum_{u\in D}\ell(y[u],v[u])$ 其中 $v$ 是网络输出的单个响应值， $y$ 为实际值，且 $\in \{-1,+1\}$ ， $D$ 是生成的heatmap， $u$ 为 $D$ 中的某一个值， $∣ D ∣$ 为heatmap的大小。而heatmap的groundtruth按照以下公式进行标记： $y[u]=\begin{cases}+1& \text if\ \ \ k||u-c||\le R\\-1& \text{otherwise}\end{cases}$ 其中 $c$ 为物体在heatmap的中心， $u$ 为heatmap中任意一点， $∣ ∣ u - c ∣ ∣$ 是 $u$ 与 $c$ 的欧氏距离， $R$ 为距离的阈值， $k$ 为heatmap经过网络之后缩小的倍数，从网络结构可以看出，有三层的卷积或者池化是以2为步长，所以包含物体信息的像素的变化会缩小 $2^3=8$ 倍，而以1为步长的操作是不会对包含物体信息的像素产生影响。

[训练过程]

训练过程中，作者通过MatConvNet使用随机梯度下降法(SGD)进行以下公式： $\arg \min _{\theta} \underset{(z, x, y)}{\mathbf{E}} L(y, f(z, x : \theta))$ 其中 $\theta$ 代表着网络参数。

训练属性	参数取值
梯度下降	SGD
初始化参数	高斯分布
迭代次数	50
每次迭代样本数	50000
批量大小	8
学习率	$10^{-2}-{10^{-5}}$

[结果分析]

[视频跟踪数据集指标分析]

[OTB-13]
OTB-13基准考虑了不同阈值下的平均每帧的成功率：如果一个跟踪器的估计值和真值之间的联合（IOU）交并比高于某个阈值，则该跟踪器在给定帧中是成功的。OPE(一次性评估)、TRE(时间鲁棒性评估)和SRE(空间鲁棒性评估)。如下图所示，SiamFC的OPE为0.612，TRE为0.621，SRE为0.554。而SiamFC-3s的OPE为0.608，TRE为0.618，SRE为0.549。