SiamMask:Fast Online Object Tracking and Segmentation: A Unifying Approach

最新推荐文章于 2021-07-04 18:05:05 发布

lighten-1996

最新推荐文章于 2021-07-04 18:05:05 发布

阅读量284

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/weixin_43292354/article/details/89523884

版权

深度学习专栏收录该内容

21 篇文章 1 订阅

订阅专栏

论文链接：https://arxiv.org/pdf/1812.05050.pdf

前期铺垫：

目标跟踪分类：
1.预测 score 的方法
在这里插入图片描述
这类算法以相关滤波和 SiameFC 为代表。通过预测候选区域的 score map来得到物体的位置，通常情况无法得到物体的长宽比变化。

利用boundingbox regression

比如SiamRPN，在预测正确的时候，会给出更为精确的 box。
利用网络预测长宽比可以调整 box，这个方向一直以来被大家所忽视，所以 SiamRPN 很快杀出重围。

旋转矩形框概念：
早期的跟踪算法都是坐标轴对齐的的矩形框。但随着跟踪精度的不断提升，数据集的难度在不断提升，在 VOT2015 时即提出使用旋转矩形框来作为标记。
在 VOT2016 的时候提出自动的通过 mask 来生成旋转框的方法。更为本质的，我们会发现，这个旋转的矩形框实际上就是 mask 的一种近似。我们所要预测的实际上就是目标物体的 mask。利用 mask 才能得到精度本身的上界。
在这里插入图片描述
红框为之前数据集的标注框，绿框与蓝色为现在数据集的标注

SiamMask：

在这篇论文，作者阐述了如何进行实时且单阶段的目标追踪和视频中的物体分割。他们把这个方法命名为 SiamMask，用一个二元分割任务增强损失函数，优化目前流行的全卷积Siamese方法的线下训练。在训练过程中，SiamMask 只需初始化边框，然后通过线上操作，产生与类别无关的物体分割masks以及边框，速度为35帧每秒。此方法很简洁，速度快，它在VOT-2018上也能和 state of art 的追踪器相比较，表现极具竞争力，在半监督视频物体分割任务DAVIS-2016和DAVIS-2017上，它的速度是最快的。

网络结构：

在这里插入图片描述
和SiamFC类似，输入样例图片为127×127 ，搜索图片为255×255 ，使用Res-50一直到主干网络第四阶段最后的卷积层。为了在较深的层获得较高的空间分辨率，通过步长为1的卷积降低输出步长至8。而且，通过膨胀卷积增加了感受野。

作者在3个任务上同时训练Siamese网络，每一个任务对应着不同的策略，这样在新的画面上，不同的目标物体和候选区域之间建立联系。一个任务是以滑动窗口的方式，学习目标物体和候选区的相似度。输出是一个 dense response map，它只表明物体的位置，而没有提供任何的空间范围信息。为了优化此信息，同时学习两个额外的任务：利用RPN进行的边框回归，以及二元分割。二元标签只在线下训练的时候用到，用于计算分割损失，而在追踪时候没有使用。在我们提出的网络结构中，每一个任务由一个分支来表现，它们都基于一个共享的CNN，最后由一个最终损失值汇总计算。

1.为了让每一个RoW都能包含目标物体的丰富信息，将SiamFC中的 simple cross-correlation替换为depth-wise cross correlation，产生一个多通道的 response map,用了 Logistic 损失。
2.在SiamRPN中，每一个RoW都编码着一组k个 anchor box候选区以及对应的物体/背景置信度。因而，SiamRPN输出边框预测以及分类置信度。这两个输出分支通过 Smooth L1 和交叉熵损失来训练。
3.与现有依赖于低可靠度的物体表现方法不同，作者认为生成每一帧的二元分割mask很重要。除了相似性置信度和边框坐标之外，用全卷积Siamese网络的RoW也能对必要的信息进行编码，产生像素级的二元mask。作者认为可以用一个额外的分支和损失函数扩展现有的Siamese跟踪器来实现。

损失函数：
通过一个简单的两层神经网络hϕ 和学习参数ϕ 来预测w×h的二元masks(每个RoW都有一个)。用m_n表示预测的mask，对应着第n个RoW。
在这里插入图片描述
在训练过程中，每一个RoW都标注有一个真值二元标签 yn∈{±1} ，以及一个像素级的真值 mask c_n，大小是w×h。
损失函数L_mask是一个覆盖所有RoWs的二元logistic回归损失：

hϕ 的分类层有w×h 个分类器，每一个表示某像素点是否属于候选框内的物体。注意，L_mask仅针对正的RoWs考虑（即y_n=1）。

其中，论文作者提到了3-branch与2-branch变体：
在这里插入图片描述
在追踪时，SiamMask 每一帧评估一次，不作任何改变。在两个变体上，通过坐标选择输出的mask，该坐标可以得到分类分支上的最高得分。然后，通过逐个像素点的 sigmoid计算，对mask 分支输出进行二值化，阈值设为0.5。对于two-branch变体，在第一帧后的每一帧，将输出mask用Min-max边框进行调节，然后用它来裁剪下一帧的搜索区域。然而，在three-branch变体，发现边框分支上最高置信度的输出是最有效的。

个人预测，随着数据集的发展，以后的目标跟踪肯定会往实例分割方向努力，以后的数据集会精确到像素级，这就要求网络结构在保证实时性的同时，精度更高。

参考自论文作者对论文的解读

lighten-1996

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
SiamMask:Fast Online Object Tracking and Segmentation: A Unifying Approach

论文链接：https://arxiv.org/pdf/1812.05050.pdf前期铺垫：目标跟踪分类：1.预测 score 的方法这类算法以相关滤波和 SiameFC 为代表。通过预测候选区域的 score map来得到物体的位置，通常情况无法得到物体的长宽比变化。利用boundingbox regression比如SiamRPN，在预测正确的时候，会给出更为精确的 box。...
复制链接

扫一扫

专栏目录