《MaskTrackRCNN：Video Instance Segmentation》论文笔记

最新推荐文章于 2025-03-06 20:23:11 发布

m_buddy

最新推荐文章于 2025-03-06 20:23:11 发布

阅读量2.3k

点赞数 3

分类专栏：图像&视频分割文章标签： MaskTrackRCNN 视频实例分割

本文链接：https://blog.csdn.net/m_buddy/article/details/115842946

版权

本文详细解析了MaskTrackRCNN论文，该模型在Mask RCNN基础上增加了跟踪头，实现视频中目标的检测、分割和跟踪。文章介绍了整体pipeline、跟踪头设计、损失函数，并展示了实验结果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参考代码：MaskTrackRCNN

1. 概述

导读：这篇文章是字节的大佬开辟的一个新坑——视频实例分割（Video Instance Segmentation），其完成的任务是在一个视频序列里面实现所有定义的实例目标的检测/分割/跟踪。这篇文章是在Mask RCNN的基础上通过添加一个额外的track head实现的。这篇的核心贡献主要有两点：提供了在视频实例分割下不同实例之间构建相似矩阵并进行训练的方法以及公开了一个名为Youtube-VIS的数据集。但是文章的方法只使用到了很少的视频时序信息更多的是在通过跟踪实现帧与帧之间的关联，算是一个很大的局限了。

原本的Mask RCNN由于没有采用跟踪的思路，其在不同图像上是不能分辨是否为同一个目标，对此文章将跟踪引入从而构建了一个新的任务，用以实现视频的实例分割，从而不同帧的同一个问题就被建立起了对应关系，具体可查看下图所示：
在这里插入图片描述
性能评估指标：
该指标使用的场景是先验类别固定为 $C=\{1,\dots,K\}$ ，使用 $m_{p\dots q}^i$ 表示第 $i$ 个实例在帧 $p$ 和 $q$ 之间的二值掩膜，而对应的 $KaTeX parse error: Expected group after '^' at position 8: \bar{m}^̲_{p\dots q}^j$ 表示实例 $j$ 在是帧 $p$ 和 $q$ 之间的二值预测掩膜，对于那些没有对应目标存在的帧使用零矩阵代替。则这篇文章中将标注的实例 $i$ 和预测的实例 $j$ 之间的IOU计算描述为：
$IoU(i,j)=\frac{\sum_{t=1}^T|m_t^i\cap \bar{m}_t^j|}{\sum_{t=1}^T|m_t^i\cup \bar{m}_t^j|}$

最低0.47元/天解锁文章