D3S – A Discriminative Single Shot Segmentation Tracker学习笔记

最新推荐文章于 2024-05-01 08:58:33 发布

WaitPX

最新推荐文章于 2024-05-01 08:58:33 发布

阅读量339

点赞数

分类专栏：目标跟踪文章标签：计算机视觉

本文链接：https://blog.csdn.net/qq_41439608/article/details/117218403

版权

目标跟踪专栏收录该内容

14 篇文章

订阅专栏

D3S – A Discriminative Single Shot Segmentation Tracker

1.拟解决问题

a. SiamMask未将localization和segmentation联合在一起提升鲁棒性
b. SiamRPN中固定的模板目标不能适应动态变化的场景

2.解决方法

2.1 D3S分割架构

在这里插入图片描述
整体步骤：
a.将第一帧输入骨干网络提取特征
b.将提取的特征分别输入GIM模块和GEM模块，通过GIM模块得到前景和背景信息，通过GEM模块得到定位信息
c.将三者通过Concat融合，然后输入refinement得到第一帧mask和bounding box
d.在跟踪时，使用骨干网络提取待跟踪帧搜索区域的特征
e. 将提取的特征输入GIM模块，通过与第一帧搜索区域比较得到像素级的前景相似度和背景相似度
f.取每个像素点相似度最高的k个，然后分别平均得到该帧的前景和背景相似度
g.重复c得到该帧的mask和bounding box

2.2 GIM

我们从下图可以看出GIM的结果可以有效的区分前景和背景，但对于目标相似问题存在不足，因此结合了下面的GEM来跟踪目标。
在这里插入图片描述
整体步骤：
a.将骨干网络提取的特征输入该模块
b.通过1×1和3×3卷积使特征更适合该模块
c.在第一帧target的每个像素上提取分割特征向量作为 $X^F$ ,在第一帧target附近的区域(搜索区域中非target部分)的每个像素上提取分割特征向量作为 $X^B$
d.在跟踪时提取待跟踪帧search region的像素级特征,记为 $X_{GIM}$
e.通过 $X_{GIM}$ 和第一帧的信息计算前景和背景相似度
f.取每个像素点上相似度得分最高的k个进行加权平均后得到F和B
g.对F（前景相似度通道）和B（背景相似度通道）送入Softmax得到P（后通道）

2.3 GEM

下图中的DCF其实就是经过在线训练后最优情况下的滤波器，所以这比基于相关的方法得到的结果更加鲁棒，可借鉴atom。
在这里插入图片描述
整体步骤:
a.将骨干网络提取的特征通过1x1卷积降维
b.将降维后的特征使用相关滤波思想得到响应图
c.计算响应图中最大响应的位置到搜索区域中剩余像素的欧式距离，得到目标位置通道

2.4 Refinement pathway

从上面我们可以看出，GIM提供了很多细节信息但是判别性很差的特征表示，GEM提供了鲁棒但不准确的特征表示，此外，由于这些特征的分辨率很低，作者便提出了Refinement模块。
在这里插入图片描述
整体步骤:
a.将GIM和GEM的特征通过concatenate进行融合
b.使用3×3卷积固定通道数为64
c.通过上采样提高分辨率，并与3×3卷积后的骨干网络特征相加得到融合特征
d.重复c步骤，最后通过softmax得到mask

2.5 Bounding box fitting module

在有mask生成边界框的过程中，作者构造了一个精巧的拟合过程，
a.将分割概率图按阈值0.5生成二值mask
b.保留mask中的最大连通部分，并用最小二乘法来拟合椭圆的轮廓，椭圆的长短轴作为选装边界框的长和宽
c.以上步骤只考虑了让前景尽可能的进入bbox，而没有考虑bbox中的背景，因此通过coordinate descent来优化下列函数，从而得到准确的目标估计
在这里插入图片描述
其中 $N_{IN}^+,N_{IN}^-,N_{OUT}^+$ 分别表示bbox内部的前景数量，bbox内部的背景数量和bbox外部的前景数量

3.实验结果

3.1 VOT2016

在这里插入图片描述

3.2 VOT2018

在这里插入图片描述

3.3 GOT-10k

在这里插入图片描述

3.4 TrackingNet

在这里插入图片描述

3.5 消融实验

在这里插入图片描述
椭圆fitting起关键作用：如果这套算法去掉最后的椭圆fitting的部分，仅仅采用旋转最小bounding box的形式，结果将下降4.5个百分点(0.489 vs 0.444)，如果在分割结果上直接采用垂直bounding box，结果与采用旋转椭圆fitting框相比下降9.1个百分点(0.489 vs 0.398)，可想而知，旋转椭圆fitting矩形框的效果是多么好了。
ATOM在线跟踪鲁棒性尤为关键：如果去掉ATOM定位分支，算法的Robustness将变得极差，EAO结果下降20几个百分点，可想而知，定位在整套算法中的地位。