Visual Tracking with Fully Convolutional Networks

最新推荐文章于 2023-06-04 15:54:35 发布

leek1727

最新推荐文章于 2023-06-04 15:54:35 发布

阅读量5.3k

点赞数 3

本文链接：https://blog.csdn.net/lk798362252/article/details/50893656

版权

Visual Tracking with Fully Convolutional Networks

本文作者提出了一种新的全卷积神经网络的方法来做视觉跟踪。作者不是简单的将卷积神经网络看做是一个黑盒的特征提取器，而是在线下通过大量的图像数据，深入研究了CNN特征的性能。通过研究得到的一些发现激发了作者设计出文中的跟踪系统。卷积神经网络的不同层上的特征在不同层次上描述着目标的不同的特征。在网络的顶层编码着更多的语义特征，它可以充当一个类别检测器。然而更底层则携带者更多的可区分性的特征，它能够更好的将目标从相似的外观上区分开来。可以同时利用这两个层次上的特征来做跟踪。作者还提出了一种特征图谱选择的方法，它能够去掉噪声和不相关的特征图谱，从而减少了计算的复杂度，提高了跟踪的精度。

对于给定的有限的在线训练数据，以及深度模型的复杂性，直接将CNNs应用到跟踪的问题上效果是不好的。因为CNN的性能依靠大规模的训练。为了更好的利用CNN，所以作者就从在线跟踪的视角上深入的研究了CNN特征的性能。通过深入研究，作者得到了几点发现，并激发作者设计出自己的跟踪系统。

第一点，CNN的不同层上的特征对于跟踪问题有不同的效果。顶层的特征捕获了目标的更加抽象的高层语义特征。他们能够从不同的类别上区分目标，并且对于形变和遮挡有很好的鲁棒性。但是他们缺乏将目标从一些相同类别区分开来的能力。更底层则提供了更加详细的局部特征，它能够帮助我们将目标从干扰项中区分开来。但是，他们缺少对外观变化的鲁棒性。基于这些发现，作者提出了一种在跟踪过程中自动的转换使用这两层的特征。

第二点，预先在ImageNet上面训练的CNN特征能够很好的区分通用的目标对象。但是，对于一个特定的目标，并不是所有的特征对于鲁棒的跟踪都是有用的。一些特征响应可能会是噪声。通过适当的特征选择，这些对于表达目标没有用的噪声特征会被清理掉，留下的特征能够更加精确的表达目标，并且抑制背景的响应。

本文的几点贡献：

1）、作者分析了从大规模图像分类任务上学习到的CNN的特征，发现了对于跟踪很重要的性能。促进了进一步的理解CNN特征，并且设计了有效的基于CNN的跟踪器。

2）、作者提出了一种新的跟踪方法，它联合了两个不同卷积层，在处理激烈的外观变化和从相似的干扰项中区分目标上有相得益彰的效果。很好的缓和了漂移的问题。

3）、提出了一种自动的选择有区分性的特征图谱，丢弃噪声和不相关的特征图谱，进一步的提高了跟踪的精度。

3、Deep Feature Analysis for Visual Tracking（深度特征分析for视觉跟踪）

分析深度表达对于理解深度学习的机制是很有用的。作者的特征分析是基于一个16层的VGG网络，它是在ImageNet图像分类任务上预训练的，他有13个卷积层和3个全连接层。我们主要集中在conv4-3层（第10个卷积层）和conv5-3（第13个卷积层），这两层都会产生512个特征图谱。

发现一：尽管CNN特征图谱的感受也很大，但是激活的特征图谱非常稀疏并且是局部的。激活的区域和语义目标区域是非常相关的。