《MaskTrackRCNN:Video Instance Segmentation》论文笔记

本文详细解析了MaskTrackRCNN论文,该模型在Mask RCNN基础上增加了跟踪头,实现视频中目标的检测、分割和跟踪。文章介绍了整体pipeline、跟踪头设计、损失函数,并展示了实验结果。
摘要由CSDN通过智能技术生成

参考代码:MaskTrackRCNN

1. 概述

导读:这篇文章是字节的大佬开辟的一个新坑——视频实例分割(Video Instance Segmentation),其完成的任务是在一个视频序列里面实现所有定义的实例目标的检测/分割/跟踪。这篇文章是在Mask RCNN的基础上通过添加一个额外的track head实现的。这篇的核心贡献主要有两点:提供了在视频实例分割下不同实例之间构建相似矩阵并进行训练的方法以及公开了一个名为Youtube-VIS的数据集。但是文章的方法只使用到了很少的视频时序信息更多的是在通过跟踪实现帧与帧之间的关联,算是一个很大的局限了。

原本的Mask RCNN由于没有采用跟踪的思路,其在不同图像上是不能分辨是否为同一个目标,对此文章将跟踪引入从而构建了一个新的任务,用以实现视频的实例分割,从而不同帧的同一个问题就被建立起了对应关系,具体可查看下图所示:
在这里插入图片描述
性能评估指标:
该指标使用的场景是先验类别固定为 C = { 1 , … , K } C=\{1,\dots,K\} C={ 1,,K},使用 m p … q i m_{p\dots q}^i mpqi表示第 i i i个实例在帧 p p p q q q之间的二值掩膜,而对应的KaTeX parse error: Expected group after '^' at position 8: \bar{m}^̲_{p\dots q}^j表示实例 j j j在是帧 p p p q q q之间的二值预测掩膜,对于那些没有对应目标存在的帧使用零矩阵代替。则这篇文章中将标注的实例 i i i和预测的实例 j j j之间的IOU计算描述为:
I o U ( i , j ) = ∑ t = 1 T ∣ m t i ∩ m ˉ t j ∣ ∑ t = 1 T ∣ m t i ∪ m ˉ t j ∣ IoU(i,j)=\frac{\sum_{t=1}^T|m_t^i\cap \bar{m}_t^j|}{\sum_{t=1}^T|m_t^i\cup \bar{m}_t^j|} IoU(i,j)=t=1Tmtimˉtj

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值