7.2 FCNT

7.2 FCNT

学习目标

  • 目标

    • 说明FCNT的算法结构

  • 应用

深度学习跟踪算法之前诞生了许多优秀的方法,它们是基于构建外观模型来进行跟踪的,这些方法又可以分为两种,一种是生成式,通过最小化重建误差来构建外观模型,另一种是判别式,通过构建一个分类器区分前景和背景(就是目标检测的思路),但是这些方法都是手工选取特征的,手工选取特征的种种不足就不多讲了,于是采用深度学习方法来进行跟踪。

7.2.1 FCNT(Visual Tracking with Fully Convolutional Networks)介绍

论文的贡献主要有以下三点:

  • 1、分析了图像分类上深度神经网络上不同层的特征的属性,以及对跟踪问题的影响。

  • 2、提出一种结合两种层次特征的跟踪算法,更好的选择特征,实现更加鲁棒的跟踪。

    • 顶层的CNN layer编码了更多的关于语义特征的信息并且可以作为类别检测器;

    • 而底层的CNN layer关注了更多局部特征,这有助于将目标从目标中分离出来。

    • a图表示的是ground truth,b图表示的是使用VGG的conv4-3,也就是第10层产生的热力图,c图是通过conv5-3也就是第13层产生的热力图。

较低维的CNN layer(conv4-3)能够更精准地表示目标的细粒度信息,而较高维的CNN layer(conv5-3)热力图显示较模糊,但对同类别的人也做出了响应。

  • 3、提出一种 feature 选择机制,剔除与跟踪目标对象干扰或不相关的特征图;更进一步提升跟踪精确度。

7.2.1.1 FCNT架构

跟踪算法基于 VGG-19,16层卷积 以及 3层 fc

  • 过程如下:

    • 1、将输入的视频帧,首先利用 VGG-19提取feature,然后分别利用 高层的特征,传送给 SNet 以及 GNet,然后分别将这两个特征图进行映射,最后根据一个干扰性判别器,选择其中的一个 heap map 作为最终的输出,给出跟踪目标的 bounding box。

    • 2、然后下一帧到来后,以上一帧预测结果为中心crop出一块区域,之后分别输入GNet和SNet,得到两个预测的heatmap,并根据是否有distractor决定使用哪个heatmap 生成最终的跟踪结果

FCNT 设计了特征选择网络,还为这两个层的选择特征映射单独设计了两个额外的通道(即 SNet 和 GNet ): GNet 捕获对象的类别信息; SNet 将该对象从具有相似外观的背景中区分出来。

  • 1、 先把GNet输出的热力图作为目标候选。这是因为GNet使用的是顶层特征,能够更好地处理形变、旋转和遮挡等目标跟踪中的常见问题

  • 2、若画面中出现同类物体时GNet不能很好的处理,因此还需要计算有没有出现目标漂移的情况。其方法是计算在目标候选区域外出现相似目标的概率P,定义一个阈值,若P大于阈值时则认为出现了同类目标,这时候才利用SNet来定位目标的最终位置,是结果更加准确。

1、Feature Map选择:剔除与跟踪目标对象扰或不相关的特征图

2、目标定位:干扰feature maps通用feature map选择排除后,更复杂的模型获取更精确的跟踪效果。

图中 (c) 和 (d) 展示了目标定位的CNN设计。在第一帧feature map选择完成后,使用conv4-3 和conv5-3层特征分别构建SNet 和GNet。两个网络使用相同结构

  • 1、第一个卷积层的卷积核尺寸为9×9,输出36个feature maps

  • 2、第二个卷积层卷积核尺寸为5×5,输出前景热图

  • 3、两个卷积层都使用ReLU做非线性变换

计算过程略

7.2.1.2 训练以及使用

训练

  • 1、在第一帧中使用反向传播对50个迭代进行训练,以进行用于特征图选择和用于目标定位的GNet和SNet。

  • 2、在每个更新步骤对SNet进行3次迭代微调。

  • 3、学习率设置为1e-9,GNet和SNet的学习率设置为1e-7。对于conv4-3和conv5-3层,通过建议的特征选择方法选择的特征图的数量均设置为K = 384。以目标位置为中心的输入ROI区域的大小为386×386 pixel-s。

7.2.1.3 效果对比

  • 平均精确率在不同的条件下:光照变化llumination variation (IV), 平面外旋转out-of-plane rotation (OPR), 比例变化scale variation (SV), 遮挡occlusion (OCC), 形变deformation (DEF), 运动模糊motion blur (MB), 快速运动fast motion (FM), 平面内旋转in-plane rotation (IPR), out-of-view (OV), 背景混乱background cluttered (BC) and解析度低 low resolution (LR).

    • 红色和绿色是不同条件下的第一高和第二高的分数

7.2.2 总结

  • 了解FCNT的结构特点

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值