Abstract
使用完全卷积的孪生网络进行离线训练,增加了二值分割的损失。
训练时仅仅依赖一个单独的初始化边界框并且在线操作,并生成不可知对象的分割mask,然后以35帧每秒的速度旋转边界框。
尽管简单、多样化、速度快,我们建立了一个新的实时tracker在VOT2018上有很好的表现,并且在实时半监督视频物体分割任务上有最快的速度。
*Introduction
同物体追踪一样,半监督的视频物体分割(VOS)需要评估任意在第一帧被选定的物体的位置。
然而,在这时物体的表示变为一些列的二值分割mask,这些mask表示为像素点是否是在目标中的像素点。这种详细的表示方法在需要像素级信息的应用中十分吃香。
可以理解的,像素级的评估相比一个简单的边界框需要更多的计算资源。传统的VOS方法和新的方法都无法达到实时的要求。
本文旨在使用SiamMask缩短二值物体跟踪与VOS间的gap,这是一个多重任务的学习方法可以用来解决两个问题。我们的方法来源于离线训练的Siamese网络和一个非常新的可用数据集——Youtube-VOS。我们想保持这些方法的离线训练以及在线速度,在相同的时间有效的改变目标物体的表现形式,被限制在一个简单的轴对称边界框中。
为了达到目标,我们同时训练了一个孪生网络在三个任务上,每个相应于一个不同的策略来建立在下一帧目标物体和候选区域之间的对应关系。一个被用来学习一个对目标与候选区域的度量的滑动窗口【4】。这个的输出是一个密集的表示映射,它只指出了目标的位置,没有任何对空间扩展的证明信息。
为了提纯信息,我们同时训练了两个更futher的task:使用Region Proposal network 的边界框回归【52,