视频目标分割度量准则

简介:

视频目标分割(VOS)本质上是一个像素级二分类问题,将一个视频序列的前景从背景区域中分离出来。DAVIS系列数据集是随着2016年CVPR的一篇论文逐渐公布的,论文名为《A Benchmark Dataset and Evaluation Methodology for
Video Object Segmentation》
[ 1 ] [1] [1] ,DAVIS系列很大程度上丰富了视频目标分割领域的数据来源。除此之外,DAVIS官方网站根据公布的DAVIS2016和DAVIS2017,分别是针对单目标分割和多目标分割的数据集,举办了一系列DAVIS挑战赛,极大地推动了该领域的发展。如下图所示 [ 2 ] [2] [2] ,左边的是DAVIS2016的单对象标注,右边的为DAVIS2017的多对象标注。
在这里插入图片描述

度量准则

2016年该论文不仅推出了DAVIS数据集,提供了具有遮挡、运动模糊、外观改变等极具挑战性且稠密标注的高清视频序列,还给出了三个互补的度量方法,分别是区域相似度 J \mathcal{J} J,轮廓准确度 F \mathcal{F} F和时间稳定性 T \mathcal{T} T,其中前两个为主要指标。
(1)区域相似度:预测的掩膜M和真实标注G之间相交与联合区域之比,衡量了像素预测错误的程度。
J = ∣ M ∩ G ∣ ∣ M ∪ G ∣ \mathcal{J}= \frac{|M{\cap}G|} {| M{\cup}G|} J=MGMG(2)轮廓准确度:在预测的掩膜 M 和真实标注G的轮廓点集之间,计算基于轮廓的查准率 P c P_c Pc和召回率 R c R_c Rc,两者的调和平均数即为准确度 F \mathcal{F} F,衡量了分割边界的准确程度。
F = 2 P c R c P c + R c \mathcal{F} = \frac{2P_cR_c} {P_c+R_c} F=Pc+Rc2PcRc 若认为,预测掩膜边界和ground truth边界重合部分才是真阳性,这样当两者形状相似,但是位置有偏差,就会效果很不稳定,因此必须进行匹配。两个掩膜轮廓之间的匹配是二分图匹配问题,但是这里采取形态学算子进行简单近似。形态学算子核心包括腐蚀和膨胀两种操作,前者用3x3的结构元素,扫描图像的每一个像素,用结构元素与其覆盖的二值图像做“与”操作,如果都为1,结果图像的该像素为1,否则为0,使得二值图像缩小一圈;后者也是用结构元素与其覆盖的二值图像做“与”操作,如果都为0,结果图像的该像素为0,否则为1,使得二值图像扩大一圈。
视频目标分割领域论文中常常还可以看到 J \mathcal{J} J Mean, J \mathcal{J} J Recall, J \mathcal{J} J Decay, F \mathcal{F} F Mean, F \mathcal{F} F Recall, F \mathcal{F} F Decay,以及 J \mathcal{J} J& F \mathcal{F} F等指标。如下图所示 [ 1 ] [1] [1],其给出了原始的相关定义。
在这里插入图片描述
J \mathcal{J} J Mean:一个序列所有帧(半监督VOS给出的第一帧,即groundtruth帧忽略) J \mathcal{J} J值加起来求算数平均,最终结果是所有序列的平均值。
J \mathcal{J} J Recall:仅统计一个序列 J \mathcal{J} J值超过一定阈值(如0.5)的帧,加起来求算数平均,最终结果是所有序列的平均值。
J Decay:第一帧 J \mathcal{J} J值(半监督VOS忽略groundtruth帧)减去最后一帧 J \mathcal{J} J值,最终结果是所有序列的平均值。
J \mathcal{J} J& F \mathcal{F} F:( J \mathcal{J} J Mean+ F \mathcal{F} F Mean)/2, F \mathcal{F} F Mean, F \mathcal{F} F Recall, F \mathcal{F} F Decay同理。
(3)时间稳定性:将t和t+1时刻预测的掩膜轮廓用形状上下文算子(SCD)进行描述,并采取动态时间规整(DTW)算法的思路,计算两个时刻轮廓采样点集基于形状的相似性,每个匹配点的平均开销即为 T \mathcal{T} T。这种衡量机制可以评估视频序列预测掩膜的平滑和准确程度,但是却会对遮挡或强烈形变尝试误判。

参考文献

[ 1 ] [1] [1] A Benchmark Dataset and Evaluation Methodology for Video Object Segmentation
F. Perazzi, J. Pont-Tuset, B. McWilliams, L. Van Gool, M. Gross, and A. Sorkine-Hornung
Computer Vision and Pattern Recognition (CVPR) 2016
[ 2 ] [2] [2] The 2017 DAVIS Challenge on Video Object Segmentation
J. Pont-Tuset, F. Perazzi, S. Caelles, P. Arbeláez, A. Sorkine-Hornung, and L. Van Gool
arXiv:1704.00675, 2017

  • 2
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值