SiamMask

最新推荐文章于 2023-03-27 11:49:06 发布

深度学习扛把子

最新推荐文章于 2023-03-27 11:49:06 发布

阅读量2.2k

点赞数 1

本文链接：https://blog.csdn.net/qq_16792139/article/details/107445473

版权

该模型通过在用于目标跟踪的全卷积Siamese神经网络上增加mask分支来实现目标的分割，同时增强网络的loss，优化网络。一旦网络训练好之后，SiamMask仅依赖于初始的一个bounding box就可以实现类别无关的目标实时跟踪及分割（at 35 frames per second）。这个模型简单，功能多样，速度快，其效果也超越了其他跟踪方法。同时，还在DAVIS-2016, DAVIS-2017视频分割数据集上取得了具有竞争力的表现和最快的速度。

SiamFC&&SiamRPN

在这里插入图片描述

这里的z就是初始帧的bounding box目标图像，这里的x就是后面的每一帧图像。φ就是siamese network，用于提取图像特征。由于z比x的尺寸小，所以生成的特征图F1肯定也是小于x生成的特征图F2。然后将F1在F2上进行滑动，利用一种相似性度量函数将两个矩阵合并成一个得分矩阵。最后，在得分矩阵里面取最大值，也就是置信度最大的点，在图像x上所对应区域即为该帧图像的预测区域。
SiamFC的方法很简单，但其缺点也是很明显的，就是预测的区域的比例是固定的，而且位置很粗糙（如上图，1717的得分矩阵对应的只有1717个原图的位置）。因此，SiamRPN在SiamFC的基础上进行改进，解决了这个缺陷。

SiamRPN在SiamFC的基础上增加了一个bounding box的预测分支。结构如下：

在这里插入图片描述

和SiamFC一样，SiamRPN也是先将模板（上）和待搜索区域（下）送入孪生网络得到特征。不同的是，SiamRPN在得到两者的特征之后，并不是直接将两者融合生成得分矩阵。而是对两者（经过上图橙色的卷积，这里不是孪生的）分别生成了分类分支和回归分支的特征，然后再两两组合，经过相关性的操作（星号处）得到后面的分类响应和回归响应。

图中的k指的是anchor数量，也就是每一个位置对应的不同尺寸的anchor的数量。在预测时，在score分支中排序筛选出k个proposal，然后再通过余弦窗和尺度惩罚来对其进行排序，根据回归分支得到各个proposal的边界框，最后使用NMS（非极大值抑制）得到最终结果。

SiamRPN通过增加了回归分支，可以让网络学习物体所在的具体位置进行回归，即可得到更加精准的预测，而且尺寸也可以通过预测得到，而不像siamFC中只能是固定比例。

总的来说，将全卷积的siamese network用于目标跟踪，生成得分矩阵，即得到了siamFC；在siamFC的基础上加上box分支，用于预测box的具体位置和长宽，即得到了siamRPN。那么再接下来，作者在siamRPN的基础上增加mask分支，就得到了本文要讲的siamMask。

SiamMask

分支部分：
其中两个变种头部网络的mask分支结构都一样，至于为什么是63x63，作者提到：
设置成63x63x1主要是为了节约计算资源。预测127*127需要1w多的channel。太大了。上采样到127是为了和exemplar一样

其他分支卷积核的设置为了改变通道数，具体作用可参考siamFC,siamRPN。两个变种的卷积具体结构如下：
两分支：
在这里插入图片描述
三分支：

作者提到，直接这样预测mask的方式得到的精度并不太高，所以提出了如下图所示的Refine模块U来提升分割的精度：在原始的响应图上对每个RoW不采用升维到63x63的方式，而是直接对RoW进行deconv上采样得到mask。
在这里插入图片描述 Refine Module借鉴了SharpMask的思路：

深度学习扛把子

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
SiamMask

该模型通过在用于目标跟踪的全卷积Siamese神经网络上增加mask分支来实现目标的分割，同时增强网络的loss，优化网络。一旦网络训练好之后，SiamMask仅依赖于初始的一个bounding box就可以实现类别无关的目标实时跟踪及分割（at 35 frames per second）。这个模型简单，功能多样，速度快，其效果也超越了其他跟踪方法。同时，还在DAVIS-2016, DAVIS-2017视频分割数据集上取得了具有竞争力的表现和最快的速度。SiamFC&&SiamRPN
复制链接

扫一扫