Siam Mask

最新推荐文章于 2025-04-17 19:45:41 发布

slothfulxtx

最新推荐文章于 2025-04-17 19:45:41 发布

阅读量787

点赞数

CC 4.0 BY-SA版权

分类专栏：孪生神经网络物体检测文章标签：计算机视觉

本文链接：https://blog.csdn.net/fnoi2014xtx/article/details/107005232

孪生神经网络同时被 2 个专栏收录

8 篇文章

订阅专栏

物体检测

8 篇文章

订阅专栏

SiamMask是一种实时在线目标跟踪与分割方法，基于SiamRPN框架，通过引入额外的mask预测分支，实现了从bounding box到mask的快速预测。此方法在保持高速的同时，提高了目标分割精度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Paper : Fast Online Object Tracking and Segmentation: A Unifying Approach
Code : official

摘要

作者提出了SiamMask 的结构，可以根据上一帧的bounding box的信息对下一帧的分割掩膜进行预测，然后再在掩膜的基础上生成该帧对应的bounding box。与其他Segmentation 的方法相比，该结构采用bbox进行mask预测，因此速度会快很多。SiamMask的实现方法比较简单，在SiamRPN的基础上在新增一个分支进行mask的生成，创新点比较小。

网络结构

在这里插入图片描述
网络的整体结构如图所示，作者在SiamRPN的两个分支之外，添加了一个新的分支用来进行Mask的预测。为了使得到的score map/response map容纳更大的信息，Siam Mask 中在互相关的一步采用的是depth-wise cross-correlation 层，可以输出一个多通道的response map。

Depth-wise Cross-correlation :

通过类似深度可分离卷积的方法，逐通道计算correlation结果，这样的好处是可以得到一个通道数非1的输出。

损失函数：在训练期间，每个RoW(Region of a candidate window)都用ground truth 标签 $y_n\in \{\pm 1\}$ 标记，并且还与大小为 $w\times h$ 的ground truth mask $c_n$ 相关联。令 $c^{ij}_{n}\in \{\pm1\}$ 表示与第 $n$ 个候选RoW中的对象掩模的像素 $(i, j)$ 相对应的标签。掩码预测任务的损失函数 $\mathcal L_\text{mask}$ 是所有RoW上的二进制logistic回归损失
$\mathcal L_\text{mask}(\theta,\phi) = \sum_n (\frac{1+y_n}{2wh}\sum_{i,j}\log(1+e^{-c_n^{ij}m_n^{ij}}))$

其中， $\frac{1+y_n}{2}$ 表示只考虑 $y_n=1$ 的情况

对于mask预测分支， $h_\phi$ 网络由两个1*1 的卷积层组成，输出通道数分别为256和63*63。作者设计了两种SiamMask的结构，一种结构具有三个分支，一种结构具有两个分支，损失函数分别为
$\\\mathcal L_\text{2B} = \lambda_1 \cdot \mathcal L_\text{mask}+\lambda_2\cdot \mathcal L_\text{sim} \\\mathcal L_\text{3B} = \lambda_1 \cdot \mathcal L_\text{mask}+\lambda_2\cdot \mathcal L_\text{score}+\lambda_3\cdot \mathcal L_\text{box}$

其中， $\mathcal L_\text{sim}$ 表示SiamFC提出的损失函数。正例和负例的label方式如下：对于anchor box，与ground-truth 的IoU在0.6以上时标记为正例，否则为负例。对于bbox和score分支，使用两个1*1的卷积核进行计算。

使用Mask生成bbox的方式有三种：

对齐的min-max bbox
最小矩形包围盒MBR
自动生成的优化矩形包围盒

优化矩形包围盒：

$\\\arg\min_{\text{bbox}} \{\text{cost}(\text{bbox}) = \alpha \sum_{x\not \in \text{bbox}}[\text{Mask}(x)>0]+\sum_{x\in \text{bbox}}[\text{Mask}(x) = 0]\} \\ \text{subject to }\frac{1}{M_f}\sum_{x\not \in \text{bbox}}[\text{Mask}(x)>0]<\Theta_f,\frac{1}{|\text{bbox}|}\sum_{x \in \text{bbox}}[\text{Mask}(x) = 0]<\Theta_b$

其中 $M_f$ 表示对象的像素数。

An intuitive interpretation of the cost function is that we want to ﬁnd a bounding box which minimizes a weighted sum of the number of object pixels outside of the bounding box and the number of background pixels inside the bounding box, with percentage of excluded object pixels and included background pixels constrained by Θ_f and Θ_b .

网络架构：对于这两个Siam Mask，使用ResNet-50直到第4阶段的最终卷积层作为我们的主干网络。为了在更深的层中获得较高的空间分辨率，我们通过使用步幅为1的卷积将输出步幅减小为8。此外，我们通过使用dilated conv来增加感受野大小。在我们的模型中，我们向共享主干网络添加一个非共享的调整层（具有256个输出的1×1 conv）。

推断：在两个分支的SiamMask中，对于第一个视频帧之后的每个视频帧，我们使用 min-max 框来拟合输出蒙版，并将其用作裁剪下一帧搜索区域的参考。相反，在三分支SiamMask中，我们利用box分支的最高得分输出作为参考。

遮罩修饰模块：为了产生更精确的对象蒙版，使用多个由上采样层和跳过连接组成的修饰模块合并了低分辨率和高分辨率特征。下图给出了修饰模块U3的示例，展示了如何使用堆叠式精炼模块生成掩模。

在这里插入图片描述

失败案例：我们讨论了SiamMask失败的两种情况：运动模糊和“非对象”实例。尽管本质上有所不同，但这两种情况可以说是由于训练集中完全缺乏相似的训练样本而引起的，它们集中在可以从前景中明确区分的对象上。

在这里插入图片描述

总结

作者的实验部分做的比较常规，对于Object Tracing部分的实验，作者达到了SOTA的效果；对于Object Segmentation的实验，作者表示尽管我表现不行但是我能做实时。实时主要是SiamFC结构造成的，而Object Tracing的表现提升在我看来不一定很有参考价值，该模型可以在两任务的数据集上同时训练，相当于做了一个超大的数据增广，而且Mask本身就比bbox要多提供很多信息。