SiamFC 文章阅读

同步发于JuzerTech网站,里面有我软、硬件学习的纪录与科技产品开箱,欢迎进去观看。


Fully-Convolutional Siamese Networks for Object Tracking

此篇开启了采用孪生网路( Siamese Network ),处理追踪(Tracking) 问题的研究方向。

论文载点

作者 : Luca Bertinetto, Jack Valmadre, João F. Henriques, Andrea Vedaldi, Philip H. S. Torr

摘要 (Abstract)

对于追踪任意物体的任务之中,传统上时常采用该视频本身当作训练资料,单纯以线上的方式来学习物体表面特征。

尽管这个方法十分的成功,但线上学习的原理,大幅限制了模型能学习到的丰富程度。

近期有大量的研究尝试以 CNN ( Convolutional Neural Networks ) 来处理相关问题,然而被追踪的物体不能预先知道,所以仅能采用 SGD ( Stochastic Gradient Descent ) 以线上的方式来调整网络参数,大幅增加了系统的执行时间。

在本篇文章中,我们采用了全卷积孪生网路 ( Fully-Convolutional Siamese Networks ) ,透过 ILSVRC15 资料集,来训练物体追踪网络,我们的网络执行上比即时速度 ( real-time ) 还要快,尽管他如此简单,但在多个指标上仍达到了最佳的成绩。

1. Introduction

我们假设问题为,追踪视频中的任意物体,该物件会在第一帧 ( Frame ) 以矩形框标示。算法可能需要追踪任意的物体,但我们难以取得足够的任意物体资料来做为训练数据,训练特定的检测器。

多年来,大多数成功的算法,采用的是,提取自该视频本身的训练资料,于线上学习该物体的外观来达成的。这类演算法大多归功于 TLF, Struck, KCF 等出色的展示能力。然而从该视频提取训练资料的方式,明显只能训练出相对简易的模型。

虽然在计算机视觉领域,越来越多问题采用深度卷积网络来解决。但在物体追踪领域,因为训练资料的不足与运算的即时性,较难以训练出针对各别视频的物体追踪器。

近期有许多文章针对这个限制进行解决,它们采用预训练好相似任务的模型来执行。第一类为采用correlation filters 透过模型本身的表达能力来执行,缺点是无法完整利用端到端学习的特点;另一类为采用SGD 来调整网路,虽然能达到很好的效果但大幅限制了执行的速度。

作者们采用相似性比较来处理这个问题,透过一个全卷积的孪生网路,输入图片( search image )与被搜索物体 ( exemplar ) ,提取特征,并透过紧密又有效率的滑窗(sliding-window),执行互相关( cross-correlation ) ,定位被搜索物体的所在位置,这始得速度能有非常大的提升。

作者们断言,相似学习的做法,因为缺少大量的已标记资料,而长年被相对忽略。

事实上,直到最近可使用的资料集也仅只有几百个标记的视频。然而我们认为 ILSVRC 资料集的出现,让我们能训练这样的网路。此外透过同支视频来训练与测试物体追踪,是个被受争议的作法,近期已经被 VOT 协会所禁止。我们于 ImageNet Video domain 训练,并于 ALOV / OTB / VOT domain 进行测试。

2. Deep similarity learning for tracking

追踪任意物体的任务可以视为相似性任务来处理。

我们训练一个函数 f (z ,x) 来比较 z 与 x 之相似性, z 代表要被追踪的物体( examplar image ) , x 代表整张要被搜索的影像 ( candidate image ),如果两者相似即回传高的分数,反之则低的分数。

寻找位置的方式为,测试所有可能的位置,选择相似性分数最高的点。在实验中我们单纯采用最初选取的物体( examplar image ) 进行搜索。函数 f 为透过具有视频与物体轨迹的数据集进行训练。

在相似性领域中通常采用孪生网路 (siamese) 来进行处理,孪生网路透过相同的变换 φ 对两个数入进行一样的处理,并透过距离函数(相似性指标) g 来对两个输出进行结合,f (z, x) = g( φ(z), φ(x) )。孪生网路大量应用于人脸验证( face verification )、关键点描述学习( keypoint descriptor )、单次字元辨识等领域(one-shot character recognition)。

2.1全卷积孪生网路架构 ( Fully-convolutional Siamese architecture ) 

假设网络全部为转换结构 ( commutes with translation ),即为全卷积网络。

这个好处是我们可以采用更大的被搜索图像 ( candidate image ),不需要受到被追踪物体( examplar image )大小的限制,并会在最后,一次性计算所有网格的相似程度,最后会输出一个二维的分数图。

在追踪过程,我们会把被搜索图像放置于先前目标物的位子,并透过比较最大分数与中心图的距离,在乘上步辐( stride ) ,以求出每帧之间的位移。

最后一步的逐步互相关 ( cross-correlation ) ,与卷积的效果相同,故我们把追踪图像( examplar image ) ,当成卷积核,于被搜索图像上 ( candidate image ),进行卷积。

2.2训练大型搜索图像 ( Training with large search images )

作者们采用 Logistic loss,来训练判别器 ( discriminative ) , v 代表预测分数,y 代表标签 (label) 。

 并逐点计算平均值

训练是采用SGD ( Stochastic Gradient Descent ) 来收敛网路。

被追踪物体与搜索图像取得方式,为撷取视频中距离 T 帧 ( frame ) 的两张图像,并以目标为中心点,不考虑物体的类别。并在不破坏图像比例的情况下对图像进行标准化( notmalization ),如果物体在中心点半径 R 内,我们即视他为正样本。

虽然全卷积网路,可以采用不同大小的,被追踪物体( examplar image ),但在此我们假设他的大小是统一的,之后也许可以放宽标准。 

2.3 ImageNet Video for tracking

ILSVRC 2015 ( ImageNet Large Scale Visual Recognition Challenge ) 新加入了 ImageNet Video 数据集,当成一个在视频中侦测物体的挑战。挑战者需要分类与定位 30 个类别的动物与交通工具。训练集(Training Set) 、 验证集 ( Validation Set ) 共包含了接近 4500 支影片,总共有 100万帧标注好的影格。这数量与 VOT, ALOV, OTB 等数据集相比是非常惊人的。

我们认为ILSVRC将会引起追踪领域的注意,因为他拥有庞大的资料,与不同以往经典指标的背景与物件。

2.4 实际应用上的考量 ( Practival considerations )

a . 数据部分 ( Dataset curation )

在训练阶段,我们采用 127 x 127 大小的追踪图像( examplar image ),255 x 255 大小的被搜索图像 ( candidate image )。图像裁切方式为选取方框 ( w x h  ) ,并多选取四周一定范围的像素 p , p 的计算方式为 p = ( w + h ) / 4 ,在乘上一个比例参数,变成 A ( 127 x 127 或 255 x 255 ),公式如下。

 图像都是离线撷取的,以防止在训练过程中,需要重新调整大小,在早期的版本中我们有采用一些策略,限制从影片提取的图像帧数,来做为训练数据。在本文中的实验皆是选取 ImageNet 中全部 4417 支影片( 超过200万个标记 ),进行训练。

b. 网路结构 ( Network architecture )

网路采用 Alex Net 中,卷积的部分,详细结构如下表所示,前面两层卷积后面都接了 Max pooling 。并且除了最后一个卷积层之外每一层结尾都加上了非线性的 ReLU 激活函数。在训练的过程中每一个线性层后面都接了一个 BN 层 ( Batch Normalization ) 。有一个重点是本网路皆未加 padding 因为 padding 违反了全卷积的概念。

 c. 追踪演算法 ( Tracking algorithm )

作者们采用较单纯的演算法,不执行模型更新与纪录前面数帧图像 ( frame ),也没有搭配而外的特征,如光流 ( optical flow )、直方图 ( Color Histograms ),并且没有特别调整预测的外框 ( bounding box ),尽管如此,他仍取得了十分杰出的效果。

另外为了速度,作者们仅针对前一帧四倍大的区域进行搜索,并且采用余弦窗 ( Cosine Window ) 对于较大的位移进行抑制 。

3. 相关研究 ( Related work )

近期一些研究采用 RNN ( Recurrent Neural Networks ) ,来处理追踪问题。

如 Gan 等人,训练一个 RNN 网路,判别每一帧图像中目标物的绝对位置; Kahou 等人也是采用类似的方法,使用 differentiable attention mechanism 训练 RNN。很可惜的是,这些方法没有展示出,足以跟其他方法相比的效果,但他们开创了未来一个研究的方向。我们发现了一个有趣的共通点,我们的孪生网路可以解释为展开的 RNN 网路,在两倍的序列中训练与验证。

Denil 等人,采用粒子滤波器,透过学习好的距离测量标准,比较第一帧与后面的每一帧影像,但他们的做法与我们比较整个物体不太相同,是比较物体内一定的小范围而已。为了学习距离测量标准,他们训练了一个有限波兹曼机 ( RBM- Restricted Boltzmann Machine ) ,然后使用欧式距离 ( Euclidean distance ) ,在两格隐藏激活函数之间 。虽然波兹曼机是非监督是算法 ( unsupervised ) ,但他们仍建议,透过要检测对象中心的随机点训练。这方法需要在线学习,或是知道物体外观才能离线使用。除了 MNIST 数字外,此方法仅在人脸与行人追踪上得到验证。

虽然为每个视频,重新训练一个特定的网路模型是不太可行的,但不少研究采用了预训练网路,再进行微调的方式来达成。如 SO-DLT、MDNET,就是先离线训练一个类似任务的网路,在执行时透过 SGD 微调,这类的方法在执行上会比较慢。有个折衷的方式是同时结合网路与传统算法,如 DeepSRDCF、 FCNT 等,但因网路的维度过高,仍不能达到即时的速度。

跟我们同期,也有其他作者采用一对影像训练卷积网路 ( Conv net ),执行物体追踪的问题。 Held 等人,开发了 GOTURN 网路,透过卷积网路回归出矩形位置。优点是可以处理长宽比等问题,不需要详尽的评估,但需要大量的资料增强 ( Augmentation )。 Chen 等人,训练了 YCNN 网路,Y 指的是网路的形状,他们网路最后面,是全连接 (Fully connected) 的结构,这代表了他们的图形大小于训练时就指定了,不能任意变换。 Tao 等人推出了 SINT ( Siamese INstance search Tracker ) 网路 ,同样采用孪生网路的形式,但他们导入了光流 (Optical Flow) 与外框回归 (Bounding Box Regression) 等技术 ,以增加准确度,虽然采用了 ROI Pooling 等方式提高效率,但执行上仍只有 2 帧每秒的速度。

上述的方法 ( MD-Net、SINT、GOTURN ),皆是采用 ALOV、OTB、VOT 等训练网路,作者们在此篇文章中还验证了在不同的资料域训练,仍能达到好的结果。

4. 实验阶段 (Experiments)

4.1 Implementation details

Training : 网路采用 MatConvNet ,参数为高斯分布,透过 SGD 迭代更新参数。总共迭代 50 轮,每一轮使用 50000 对图像,每次使用 8 个一组的 mini-batches,学习率 ( Learning Rate ) 从 10-2 递减到 10-5。

Tracking : 整个流程尽量的简化, 最初的图像外观仅于第一次执行时计算。并透过双三次插值 (Bicubic interpolation) 上采样分数图,从 17x17 到 272 x 272,能取得较准确的定位。

对目标物进行五总尺度的搜寻1:025{-2,-1,0,1,2}

作者们有开源 SiameseFC 的代码,载点如下

SiameseFC tracker

作者们的电脑是 Intel Core I7-4790K 搭配 NVIDIA Titan X ,可以达到 86/58 帧 每秒 ( 3/5 scales )

4.2 Evaluation

实验分为五个尺度和三个尺度,分别称为SiamFC、SiamFC-3s。

4.3 The OTB-13 benchmark

OTB-13 考虑了不同域值得每帧准确度,透过预测范围与标签之间的 IoU ( Intersection-over-union ) 大小来计算域值。在 OTB-13 指标,作者们与 Staple、LCT、CCT、SCT4、DLSSVM_NU、DSST、KCFDP 等算法进行比较,比较结果如下图所示

 4.4 The VOT benchmarks

 VOT (Visual Object Tracking) 工具包,里面包含 356 支连续图像,其中有部分来自 ALOV、OTB 数据集,在测试的过程中如果追踪器追丢了,会在 5 帧后重新初始化。

VOT-14 : 作者们与参加  VOT-14 挑战中,前 10 名的追踪器进行比较,再而外加上 Staple 跟 GOTURN 两个发表于 CVPR 2016 跟 ECCV 2016 的文章。采用准确度 (accuracy)、稳定度 (robustness) 进行比较,准确度计算方式为平均的 IoU,稳定度则为总错误数,下图为比较图。

 VOT-15 : 作者们与参加 VOT-15 的前 40 名追踪器进行比较,比较标准为预期平均重叠 (expected average overlap measure),意思为追丢后,没有重新初始化,情况下的 IoU 值,比较图如下所示。

 4.5 Dataset size

下表为训练数据集的丰富程度,与他们所对应的准确度。可以看到越丰富的训练集能提升越高的准确度。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值