STC-Seg:首个超越PointTrack的弱监督视频MOTS算法

弱监督视频多目标实例分割新SOTA(代码已开源):
Paper: Solve the Puzzle of Instance Segmentation in Videos: A Weakly Supervised Framework with Spatio-Temporal Collaboration
PDF: https://arxiv.org/pdf/2212.07592.pdf
Code: https://github.com/ylqi/STC-Seg

在这里插入图片描述

众所周知,视频多目标跟踪与分割(Multi-Object Tracking and Segmentation,MOTS)的标注需要给每个视频帧中的每个目标描绘轮廓(Mask-Level Label),工作量十分巨大。我们希望仅仅利用更弱一级的标注——目标检测框(Box-Level Label),作为标注信息来训练视频多目标分割模型。

在图像弱监督多目标分割中,因为边界信息的缺乏,仅仅使用Box-Level的标注很难训练模型预测出较好的轮廓;然而在视频中,视频的时空信息往往包含了大量的轮廓信息,因此我们可以利用时空分析方法,包括视频深度估计方法、光流预测方法,来提取出目标的轮廓特征。

基于上述思路,STC-Seg[1]首先利用自监督的视频深度估计和光流预测方法获得深度(Depth)和光流(Optical Flow),利用它们生成Pseudo-Label来配合Box-Label的标注:
在这里插入图片描述

STC-Seg的损失函数(Loss)包括两项:(1)Boundary Term(2)Box Term。前者负责Pseudo-Label的监督,后者负责Box-Label的监督,像拼图一样将Pseudo-Label里的一块一块拼成一个完整的Mask。方法的系统框架如下:

在这里插入图片描述

其中的目标分割网络(Segmentation Network)可以选取任何多目标分割网络,例如CondInst[2]。

损失函数中的Boundary Term利用Pseudo-Label的负采样像素点(相似度高的区域,即非轮廓区域)来训练模型(其实就是去掉了正样本部分的交叉熵):
在这里插入图片描述

为了平衡Boundary Term导致预测的Mask往外扩的趋势,在Box Term的损失函数中,STC-Seg在Dice Loss的基础上做了改动:

在这里插入图片描述

最终Box Term和Boundary Term相互约束实现平衡:

在这里插入图片描述

在KITTI MOTS的官网榜单上,弱监督的STC-Seg的效果超越了经典的全监督学习的方法PointTrack和TrackR-CNN:

在这里插入图片描述

可以看到轮廓预测地非常丝滑(而 TrackR-CNN 和 MaskTrack R-CNN 都不那么贴合真实物体):
在这里插入图片描述

References

[1] Yan, Liqi, et al. “Solve the Puzzle of Instance Segmentation in Videos: A Weakly Supervised Framework with Spatio-Temporal Collaboration.” IEEE Transactions on Circuits and Systems for Video Technology (2022).

[2] Z. Tian, C. Shen, and H. Chen, “Conditional convolutions for instance segmentation,” in ECCV, 2020.

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值