Learning Multi-Domain Convolutional Neural Networks for Visual Tracking

最新推荐文章于 2021-12-19 20:57:52 发布

leek1727

最新推荐文章于 2021-12-19 20:57:52 发布

阅读量1.5k

点赞数 2

分类专栏：视觉跟踪文章标签： visual tracking cnn 深度学习视觉跟踪 MDNet

本文链接：https://blog.csdn.net/lk798362252/article/details/50822387

版权

视觉跟踪专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Learning Multi-Domain Convolutional Neural Networks for Visual Tracking

视觉跟踪的一个难点是很难收集到大规模的训练数据

现有的利用深度学习方法来做视觉跟踪的是利用图像分类任务的数据集ImageNet预训练一个CNN，然后利用迁移学习的方法将其利用在视觉跟踪任务上，因为分类问题和跟踪问题本质的差别，使得跟踪的效果收到了限制

因为视频序列的变化，也使我们很难训练一个很好的适用于跟踪任务的CNN模型，因为一个对象在一个视频序列中是目标，但是在另一个视频序列中可能就是背景了。

因为视频之间的变化较大，我们认为通常的基于分类任务的学习算法是不合适的，可取的方法是捕获到独立序列的信息能够更好的表达当前的目标。

1、视觉跟踪的目的只是区分两类问题，目标和背景

2、一个深度的CNN对定位的精度，处理的不是很好，不能够精确定位目标对象，因为随着网络的加深，空间信息会被稀释

3、因为要跟踪的目标区域本来就很小，也就自然的减少了网络的深度

4、一个小的网络已经能够很高效的处理视觉跟踪问题，并且能够有效的在线的训练和测试

虽然每一个视频序列的目标和背景都不同，但是他们还是有一些共同的特点，比如对光照变化、运动模糊、尺度变化等的鲁棒性是一样的。

通过训练一个多领域的卷积神经网络，在共享层我们会得到领域无关的信息。训练好多领域的网络模型之后，我们用的时候会将最后一个特定领域层去掉，用一个新的单独的层来替代

网络结构：

算法的实现细节：

输入：预训练的CNN的模型参数

初始化目标状态

输出：预测的目标状态

step1：随机初始化最后一层的权值

step2：训练一个bounding box 回归模型

step3：画出正样例和负样例

step4：利用画出的正负样例来更新全连接层和最后一层的权值

step5：repeat

画出目标的候选区域

找到最优的目标状态

如果它的得分大于0.5，

画出对应的正负样例

更新Ts和Tl

用bounding box 回归模型调整目标状态

如果它的得分小于0.5，

用Ts来更新后三层的权值

如果帧数是10的倍数

用Tl来更新后三层的权值

直到视频序列结束

4.1 跟踪控制和网络更新

作者考虑到视觉跟踪的两个方面，鲁棒性和适应性，通过long-trem和short-trem两种策略来更新。long-trem的更新策略是在一定的时间间隔，用收集到的正样本来更新模型，short-trem是当发生潜在的跟踪错误的时候就更新模型。在short-trem更新策略上，舍弃之前的负样本，而是采用一个较短时间间隔内收集到的负样本来更新模型，因为之前帧收集到的样本会发生漂移现象。

为了估计每一帧的目标状态，在前一帧目标位置的周围取N个候选目标区域。分别算出每个候选区域属于正样本和负样本的得分。选取属于正样本的最高得分的候选区域作为当前帧的目标区域。

4.2 硬的小块采样

在通过检测来做跟踪中，大多数的负样例是不重要的或者多余的，只有少数的几个分散的负样例是对分类有效果的。因此，通常的随机梯度下降算法，训练样本对训练的贡献是相同的，很容易会产生漂移问题，因为我们没能充分考虑干扰项。在目标检测任务中，一个解决此问题的流行的方法是硬负采样（hard negative mining），训练和测试的过程轮流的鉴定硬负样本，特别是误报（false positive），我们将这个想法应用到我们的在线学习过程中。

我们将硬负采样集成到我们的小块的选择里面。在我们学习过程中的每一次迭代，这一小块的样本包含一些正例和一些负例。硬负样本是通过选取负样本中得分最高的的几个确定的。随着学习的进行，我们的网络会更加具有区分性，在小块中的分类变得十分具有挑战性。