简介:
视频目标分割(VOS)本质上是一个像素级二分类问题,将一个视频序列的前景从背景区域中分离出来。DAVIS系列数据集是随着2016年CVPR的一篇论文逐渐公布的,论文名为《A Benchmark Dataset and Evaluation Methodology for
Video Object Segmentation》
[
1
]
[1]
[1] ,DAVIS系列很大程度上丰富了视频目标分割领域的数据来源。除此之外,DAVIS官方网站根据公布的DAVIS2016和DAVIS2017,分别是针对单目标分割和多目标分割的数据集,举办了一系列DAVIS挑战赛,极大地推动了该领域的发展。如下图所示
[
2
]
[2]
[2] ,左边的是DAVIS2016的单对象标注,右边的为DAVIS2017的多对象标注。
度量准则
2016年该论文不仅推出了DAVIS数据集,提供了具有遮挡、运动模糊、外观改变等极具挑战性且稠密标注的高清视频序列,还给出了三个互补的度量方法,分别是区域相似度
J
\mathcal{J}
J,轮廓准确度
F
\mathcal{F}
F和时间稳定性
T
\mathcal{T}
T,其中前两个为主要指标。
(1)区域相似度:预测的掩膜M和真实标注G之间相交与联合区域之比,衡量了像素预测错误的程度。
J
=
∣
M
∩
G
∣
∣
M
∪
G
∣
\mathcal{J}= \frac{|M{\cap}G|} {| M{\cup}G|}
J=∣M∪G∣∣M∩G∣(2)轮廓准确度:在预测的掩膜 M 和真实标注G的轮廓点集之间,计算基于轮廓的查准率
P
c
P_c
Pc和召回率
R
c
R_c
Rc,两者的调和平均数即为准确度
F
\mathcal{F}
F,衡量了分割边界的准确程度。
F
=
2
P
c
R
c
P
c
+
R
c
\mathcal{F} = \frac{2P_cR_c} {P_c+R_c}
F=Pc+Rc2PcRc 若认为,预测掩膜边界和ground truth边界重合部分才是真阳性,这样当两者形状相似,但是位置有偏差,就会效果很不稳定,因此必须进行匹配。两个掩膜轮廓之间的匹配是二分图匹配问题,但是这里采取形态学算子进行简单近似。形态学算子核心包括腐蚀和膨胀两种操作,前者用3x3的结构元素,扫描图像的每一个像素,用结构元素与其覆盖的二值图像做“与”操作,如果都为1,结果图像的该像素为1,否则为0,使得二值图像缩小一圈;后者也是用结构元素与其覆盖的二值图像做“与”操作,如果都为0,结果图像的该像素为0,否则为1,使得二值图像扩大一圈。
视频目标分割领域论文中常常还可以看到
J
\mathcal{J}
J Mean,
J
\mathcal{J}
J Recall,
J
\mathcal{J}
J Decay,
F
\mathcal{F}
F Mean,
F
\mathcal{F}
F Recall,
F
\mathcal{F}
F Decay,以及
J
\mathcal{J}
J&
F
\mathcal{F}
F等指标。如下图所示
[
1
]
[1]
[1],其给出了原始的相关定义。
J
\mathcal{J}
J Mean:一个序列所有帧(半监督VOS给出的第一帧,即groundtruth帧忽略)
J
\mathcal{J}
J值加起来求算数平均,最终结果是所有序列的平均值。
J
\mathcal{J}
J Recall:仅统计一个序列
J
\mathcal{J}
J值超过一定阈值(如0.5)的帧,加起来求算数平均,最终结果是所有序列的平均值。
J Decay:第一帧
J
\mathcal{J}
J值(半监督VOS忽略groundtruth帧)减去最后一帧
J
\mathcal{J}
J值,最终结果是所有序列的平均值。
J
\mathcal{J}
J&
F
\mathcal{F}
F:(
J
\mathcal{J}
J Mean+
F
\mathcal{F}
F Mean)/2,
F
\mathcal{F}
F Mean,
F
\mathcal{F}
F Recall,
F
\mathcal{F}
F Decay同理。
(3)时间稳定性:将t和t+1时刻预测的掩膜轮廓用形状上下文算子(SCD)进行描述,并采取动态时间规整(DTW)算法的思路,计算两个时刻轮廓采样点集基于形状的相似性,每个匹配点的平均开销即为
T
\mathcal{T}
T。这种衡量机制可以评估视频序列预测掩膜的平滑和准确程度,但是却会对遮挡或强烈形变尝试误判。
参考文献
[
1
]
[1]
[1] A Benchmark Dataset and Evaluation Methodology for Video Object Segmentation
F. Perazzi, J. Pont-Tuset, B. McWilliams, L. Van Gool, M. Gross, and A. Sorkine-Hornung
Computer Vision and Pattern Recognition (CVPR) 2016
[
2
]
[2]
[2] The 2017 DAVIS Challenge on Video Object Segmentation
J. Pont-Tuset, F. Perazzi, S. Caelles, P. Arbeláez, A. Sorkine-Hornung, and L. Van Gool
arXiv:1704.00675, 2017