7.2 FCNT

最新推荐文章于 2024-07-11 11:54:15 发布

开拖拉机的舒克。

最新推荐文章于 2024-07-11 11:54:15 发布

阅读量1k

点赞数

分类专栏：目标追踪文章标签：计算机视觉神经网络机器学习算法 python

本文链接：https://blog.csdn.net/qq_40066957/article/details/106015449

版权

目标追踪专栏收录该内容

4 篇文章 1 订阅

订阅专栏

7.2 FCNT

学习目标

目标
- 说明FCNT的算法结构
应用
- 无

深度学习跟踪算法之前诞生了许多优秀的方法，它们是基于构建外观模型来进行跟踪的，这些方法又可以分为两种，一种是生成式，通过最小化重建误差来构建外观模型，另一种是判别式，通过构建一个分类器区分前景和背景（就是目标检测的思路），但是这些方法都是手工选取特征的，手工选取特征的种种不足就不多讲了，于是采用深度学习方法来进行跟踪。

7.2.1 FCNT(Visual Tracking with Fully Convolutional Networks)介绍

论文的贡献主要有以下三点：

1、分析了图像分类上深度神经网络上不同层的特征的属性，以及对跟踪问题的影响。
2、提出一种结合两种层次特征的跟踪算法，更好的选择特征，实现更加鲁棒的跟踪。
- 顶层的CNN layer编码了更多的关于语义特征的信息并且可以作为类别检测器；
- 而底层的CNN layer关注了更多局部特征，这有助于将目标从目标中分离出来。
- a图表示的是ground truth，b图表示的是使用VGG的conv4-3，也就是第10层产生的热力图，c图是通过conv5-3也就是第13层产生的热力图。

较低维的CNN layer（conv4-3）能够更精准地表示目标的细粒度信息，而较高维的CNN layer（conv5-3）热力图显示较模糊，但对同类别的人也做出了响应。

3、提出一种 feature 选择机制，剔除与跟踪目标对象干扰或不相关的特征图；更进一步提升跟踪精确度。

7.2.1.1 FCNT架构

跟踪算法基于 VGG-19，16层卷积以及 3层 fc

过程如下：
- 1、将输入的视频帧，首先利用 VGG-19提取feature，然后分别利用高层的特征，传送给 SNet 以及 GNet，然后分别将这两个特征图进行映射，最后根据一个干扰性判别器，选择其中的一个 heap map 作为最终的输出，给出跟踪目标的 bounding box。
- 2、然后下一帧到来后，以上一帧预测结果为中心crop出一块区域，之后分别输入GNet和SNet，得到两个预测的heatmap,并根据是否有distractor决定使用哪个heatmap 生成最终的跟踪结果

FCNT 设计了特征选择网络，还为这两个层的选择特征映射单独设计了两个额外的通道（即 SNet 和 GNet ）： GNet 捕获对象的类别信息； SNet 将该对象从具有相似外观的背景中区分出来。

1、先把GNet输出的热力图作为目标候选。这是因为GNet使用的是顶层特征，能够更好地处理形变、旋转和遮挡等目标跟踪中的常见问题
2、若画面中出现同类物体时GNet不能很好的处理，因此还需要计算有没有出现目标漂移的情况。其方法是计算在目标候选区域外出现相似目标的概率P，定义一个阈值，若P大于阈值时则认为出现了同类目标，这时候才利用SNet来定位目标的最终位置，是结果更加准确。

1、Feature Map选择：剔除与跟踪目标对象扰或不相关的特征图

2、目标定位：干扰feature maps通用feature map选择排除后，更复杂的模型获取更精确的跟踪效果。

图中 (c) 和 (d) 展示了目标定位的CNN设计。在第一帧feature map选择完成后，使用conv4-3 和conv5-3层特征分别构建SNet 和GNet。两个网络使用相同结构

1、第一个卷积层的卷积核尺寸为9×9，输出36个feature maps
2、第二个卷积层卷积核尺寸为5×5，输出前景热图
3、两个卷积层都使用ReLU做非线性变换

计算过程略

7.2.1.2 训练以及使用

训练

1、在第一帧中使用反向传播对50个迭代进行训练，以进行用于特征图选择和用于目标定位的GNet和SNet。
2、在每个更新步骤对SNet进行3次迭代微调。
3、学习率设置为1e-9，GNet和SNet的学习率设置为1e-7。对于conv4-3和conv5-3层，通过建议的特征选择方法选择的特征图的数量均设置为K = 384。以目标位置为中心的输入ROI区域的大小为386×386 pixel-s。

7.2.1.3 效果对比

平均精确率在不同的条件下：光照变化llumination variation (IV), 平面外旋转out-of-plane rotation (OPR), 比例变化scale variation (SV), 遮挡occlusion (OCC), 形变deformation (DEF), 运动模糊motion blur (MB), 快速运动fast motion (FM), 平面内旋转in-plane rotation (IPR), out-of-view (OV), 背景混乱background cluttered (BC) and解析度低 low resolution (LR).
- 红色和绿色是不同条件下的第一高和第二高的分数