SiamMask:Fast Online Object Tracking and Segmentation: A Unifying Approach

论文链接:https://arxiv.org/pdf/1812.05050.pdf

前期铺垫:

目标跟踪分类:
1.预测 score 的方法
在这里插入图片描述
这类算法以相关滤波和 SiameFC 为代表。通过预测候选区域的 score map来得到物体的位置,通常情况无法得到物体的长宽比变化。

  1. 利用boundingbox regression
    在这里插入图片描述
    比如SiamRPN,在预测正确的时候,会给出更为精确的 box。
    利用网络预测长宽比可以调整 box,这个方向一直以来被大家所忽视,所以 SiamRPN 很快杀出重围。

旋转矩形框概念:
早期的跟踪算法都是坐标轴对齐的的矩形框。但随着跟踪精度的不断提升,数据集的难度在不断提升,在 VOT2015 时即提出使用旋转矩形框来作为标记。
在 VOT2016 的时候提出自动的通过 mask 来生成旋转框的方法。更为本质的,我们会发现,这个旋转的矩形框实际上就是 mask 的一种近似。我们所要预测的实际上就是目标物体的 mask。利用 mask 才能得到精度本身的上界。
在这里插入图片描述
红框为之前数据集的标注框,绿框与蓝色为现在数据集的标注

SiamMask:

在这篇论文,作者阐述了如何进行实时且单阶段的目标追踪和视频中的物体分割。他们把这个方法命名为 SiamMask,用一个二元分割任务增强损失函数,优化目前流行的全卷积Siamese方法的线下训练。在训练过程中,SiamMask 只需初始化边框,然后通过线上操作,产生与类别无关的物体分割masks以及边框,速度为35帧每秒。此方法很简洁,速度快,它在VOT-2018上也能和 state of art 的追踪器相比较,表现极具竞争力,在半监督视频物体分割任务DAVIS-2016和DAVIS-2017上,它的速度是最快的。

网络结构:

在这里插入图片描述
和SiamFC类似,输入样例图片为127×127 ,搜索图片为255×255 ,使用Res-50一直到主干网络第四阶段最后的卷积层。为了在较深的层获得较高的空间分辨率,通过步长为1的卷积降低输出步长至8。而且,通过膨胀卷积增加了感受野。

作者在3个任务上同时训练Siamese网络,每一个任务对应着不同的策略,这样在新的画面上,不同的目标物体和候选区域之间建立联系。一个任务是以滑动窗口的方式,学习目标物体和候选区的相似度。输出是一个 dense response map,它只表明物体的位置,而没有提供任何的空间范围信息。为了优化此信息,同时学习两个额外的任务:利用RPN进行的边框回归,以及二元分割。二元标签只在线下训练的时候用到,用于计算分割损失,而在追踪时候没有使用。在我们提出的网络结构中,每一个任务由一个分支来表现,它们都基于一个共享的CNN,最后由一个最终损失值汇总计算。

1.为了让每一个RoW都能包含目标物体的丰富信息,将SiamFC中的 simple cross-correlation替换为depth-wise cross correlation,产生一个多通道的 response map,用了 Logistic 损失 。
2.在SiamRPN中,每一个RoW都编码着一组k个 anchor box候选区以及对应的物体/背景置信度。因而,SiamRPN输出边框预测以及分类置信度。这两个输出分支通过 Smooth L1 和交叉熵损失来训练。
3.与现有依赖于低可靠度的物体表现方法不同,作者认为生成每一帧的二元分割mask很重要。除了相似性置信度和边框坐标之外,用全卷积Siamese网络的RoW也能对必要的信息进行编码,产生像素级的二元mask。作者认为可以用一个额外的分支和损失函数扩展现有的Siamese跟踪器来实现。

损失函数:
通过一个简单的两层神经网络hϕ 和学习参数ϕ 来预测w×h的二元masks(每个RoW都有一个)。用m_n表示预测的mask,对应着第n个RoW。
在这里插入图片描述
在训练过程中,每一个RoW都标注有一个真值二元标签 yn∈{±1} ,以及一个像素级的真值 mask c_n,大小是w×h。
损失函数L_mask是一个覆盖所有RoWs的二元logistic回归损失:
在这里插入图片描述
hϕ 的分类层有w×h 个分类器,每一个表示某像素点是否属于候选框内的物体。注意,L_mask仅针对正的RoWs考虑(即y_n=1)。

其中,论文作者提到了3-branch与2-branch变体:
在这里插入图片描述
在追踪时,SiamMask 每一帧评估一次,不作任何改变。在两个变体上,通过坐标选择输出的mask,该坐标可以得到分类分支上的最高得分。然后,通过逐个像素点的 sigmoid计算,对mask 分支输出进行二值化,阈值设为0.5。对于two-branch变体,在第一帧后的每一帧,将输出mask用Min-max边框进行调节,然后用它来裁剪下一帧的搜索区域。然而,在three-branch变体,发现边框分支上最高置信度的输出是最有效的。

个人预测,随着数据集的发展,以后的目标跟踪肯定会往实例分割方向努力,以后的数据集会精确到像素级,这就要求网络结构在保证实时性的同时,精度更高。

参考自论文作者对论文的解读

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值