《SiamMask：Fast Online Object Tracking and Segmentation：A Unifying Approach》论文笔记

最新推荐文章于 2020-08-03 10:13:08 发布

m_buddy

最新推荐文章于 2020-08-03 10:13:08 发布

阅读量405

点赞数

分类专栏：图像&视频分割

本文链接：https://blog.csdn.net/m_buddy/article/details/105218727

版权

本文详细介绍了SiamMask论文，这是一种结合目标跟踪与分割的在线算法。通过在孪生网络中添加分割分支，SiamMask实现了快速跟踪（55FPS）并同时提供分割结果。它基于SiamFC和SiamRPN，添加了3个或2个输出分支的网络结构，使用Logistic Loss和Smooth L1损失函数进行训练。实验结果显示了其在跟踪和分割任务上的优秀性能。

摘要由CSDN通过智能技术生成

参考代码：SiamMask

1. 概述

导读：这篇文章在基于孪生网络的目标跟踪算法离线训练的过程中嵌入一个mask分割分支，从而可到一个既可以做VOT也可以做VOS（分割性能这块可以还有很大空间）的网络结构SiamMask（含3和2输出的两个变种）。训练完成之后只需要给定初始的边界框初始化就可以产生跟踪目标的分割mask与对应的旋转外接矩（或者更加符合跟踪目标的边界框表达），此外由于不需要finetune且网络简单因而额速度很快能达到55FPS，但是分割性能就差一些。这篇文章将跟踪与分割组合点子还是不错的，使人想到了mask rcnn。

下面是使用文章的方法进行跟踪与目标分割的结果展示：
在这里插入图片描述
这篇文章的基础是基于孪生网络（不同数据输入，网络权值共享）的跟踪算法，文章很大的灵感是来自于SiamFC与SiamRPN的，下面也将会这两个网络进行介绍。

SiamFC
在孪生网络对于当前帧与参考目标运算之后会得到两个特征图( $x, z$ )，之后使用参考目标的特征图当作滑动窗口（文中对应位response of a candidate window，RoW）在当前帧的特征图上进行滑动，计算不同位置处的cross-correlated：
$g_{\theta}^n=f_{\theta}(z)\cdot f_{\theta}^n(\theta)$
其中， $n$ 就是对应的滑动窗口位置索引。之后SiamFC就在这些位置上去寻找最大响应的地方，之后通过卷积的映射关系还原出目标在当前帧的位置，使用的损失函数是Logistic Loss（记为 $L_{sim}$ ）。文章对相关性分析这块进行了改进，使用了 $n * c$ 维度上的分组卷积进行实现。