SiamMask论文阅读: Fast Online Object Tracking and Segmentation: A Unifying Approach

最新推荐文章于 2020-08-07 20:45:10 发布

Fan72

最新推荐文章于 2020-08-07 20:45:10 发布

阅读量3.4k

点赞数 2

分类专栏： Paper reading Object Tracking

本文链接：https://blog.csdn.net/fzp95/article/details/90053037

版权

Paper reading 同时被 2 个专栏收录

13 篇文章 2 订阅

订阅专栏

Object Tracking

13 篇文章 3 订阅

订阅专栏

CVPR2019论文
论文：ArXiv
代码：GitHub
作者在知乎上的文章：知乎

在这里插入图片描述

对于视频目标跟踪（VOT）领域的任务，在第一帧给定BBox，获得后续帧中的BBox
对于视频目标分割（VOS）领域的任务，在第一帧给定Mask，获得后续帧中的Mask
那么对于VOT，能否通过分割的结果获得更准确的BBox信息？对于VOS，能不能只通过初始帧的BBox，利用跟踪得到快速的分割Mask?

所以，作者的主要思想是提出一个统一的框架：①对于跟踪领域，提供分割得到更精确的预测；②对于视频分割领域，提出使用box这种低成本的初始化，用tracking来引导分割的快速vos框架。

SiamMask框架

在实现上，SiamMask有两种变种：两分支和三分支变种，baseline分别为对SiamFC和SiamRPN。两分支即为在原始的响应图分支外，再加入mask分支，三分支为在原始的得分图和边界框回归分支外，加入mask分支。
再看框架图：在中间互相关后的响应图中，作者对每个位置上的1x1x256称为RoW(response of a candidate window)，想要表达的就是，把这个RoW再通过1x1分支编码为一行向量来表示一个mask，产生预测，采用了deepmask的思想。设置成1x1x(63x63)是为了resize到63x63x1然后直接进行上采样到127x127，再通过设置阈值得到最终mask。
按论文中的意思，每个位置的RoW都会产生一个mask，到底选哪个mask是在推断过程中根据score branch来选择的。
在这里插入图片描述

Backbone

前面的主干网络 $f_{\theta }$ 为resnet-50的前4个阶段，这部分网络共享参数，输出接不共享参数的1x1卷积来调整通道， $\bigstar _{d}$ 为depth-wise互相关，因此得分图的通道数还是256。主干网络结构图如下所示：
在这里插入图片描述

Heads

其中两个变种头部网络的mask分支结构都一样，至于为什么是63x63，作者提到：

设置成63x63x1主要是为了节约计算资源。预测127*127需要1w多的channel。太大了。上采样到127是为了和exemplar一样

其他分支卷积核的设置为了改变通道数，具体作用可详见上面两篇论文。两个变种的卷积具体结构如下：
两分支：
在这里插入图片描述
三分支：

作者提到，直接这样预测mask的方式得到的精度并不太高，所以提出了如下图所示的Refine模块 $U$ 来提升分割的精度：在原始的响应图上对每个RoW不采用升维到63x63的方式，而是直接对RoW进行deconv上采样得到mask。
在这里插入图片描述
Refine Module借鉴了SharpMask的思路：

Loss:

mask分支loss:
在这里插入图片描述
其中 $\theta$ 和 $\phi$ 分别是主干网络和mask头网络的权重， $y_n$ 是第n个RoW的标签，取 $\pm 1$ ，不考虑标签为-1的。 $c_n^{ij}$ 为真实mask上第ij位置的标签，总共有 $w h$ 个，对应的 $m_n^{ij}$ 就是预测的标签。

总loss:
在这里插入图片描述
其中 $\lambda_1=32，\lambda_2=\lambda_3=1$

实验

1. 三种根据mask选包围框的策略对跟踪结果的影响

三种策略见下图，具体描述参见文章
在这里插入图片描述
这块主要是想通过实验说明，包围框的选择策略对结果影响很大。
考虑到速度的影响，最终算法选择的是MBR的策略选择包围框。

2. 跟踪结果比较

在这里插入图片描述

3. 分割结果比较

主要的亮点是保证精度还可以的情况下，速度达到非常快，而且不需要初始mask，只需要初始帧的一个bounding box即可。
在这里插入图片描述

4. Ablation studies

比较了不同的主干网络，有没有采用refine模块，是否采用axis-aligned bounding等做比较。具体描述细节可参见文章
在这里插入图片描述

结尾

整篇论文其实就是在介绍一个概念，还是开头那句话，这个思想是最核心的，具体的实现只是图个方便，期待后续更加精确而高效的工作提出来不断拓展跟踪的新方向。

Fan72

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
SiamMask论文阅读: Fast Online Object Tracking and Segmentation: A Unifying Approach

CVPR2019论文作者的主要思想是提出一个统一的框架：①对于跟踪领域，提供分割得到更精确的预测；②对于视频分割领域，提出使用box这种低成本的初始化，用tracking来引导分割的快速vos框架。还是开头那句话，本文的这个思想是最核心的，具体的实现只是图个方便，后续肯定还会有更加精确而高效的实现方法提升效果。...
复制链接

扫一扫