【谷歌翻译】【CVPR15】Saliency-Aware Geodesic Video Object Segmentation

@cited:164(Google Scholar)

摘要:

我们引入了一种无监督的基于测地距离的显着视频对象分割方法。与传统方法不同,我们的方法通过计算鲁棒测地测量将显着性作为对象的先验进行合并。我们考虑两个有区别的视觉特征:空间边缘和时间运动边界作为前景物体位置的指示。我们首先使用这些指标的测地距离生成逐帧时空显着性地图。基于前景区域被高时空边缘值区域包围的观察结果,测地距离为前景和背景提供了初始估计。然后,通过后续帧中到背景区域的测地距离生成高质量显着性结果。通过生成的显着图,我们为前景和背景建立全局外观模型。通过实现运动连续性,我们为每个帧建立一个动态的位置模型。最后,将时空显著性图,外观模型和动态位置模型组合成一个能量最小化框架,以便实现空间和时间都连贯的物体分割。对基准视频数据集进行大量的定量和定性实验证明了所提出的方法优于最先进的算法的优势。

1. Introduction

无监督的视频对象分割方法旨在自动从整个视频中提取对象。这种分割已经显示出可以使许多特定的视频任务和应用受益,例如视频摘要,压缩和人机交互等等。外观信息和运动提示通常被视频分割方法所采用。 [6,17,12]中的一些作品分析了点轨迹,以利用多帧中可用的运动信息。 Brox等人[6]提供了一个基于轨迹的视频分割框架,通过构建轨迹对之间的亲和矩阵。 Lezama等人[17]通过从过去和未来帧的范围运动矢量把具有一致运动的像素成组。 Fragkiadaki等人的另一个方法 [12]检测到空间相邻轨道之间的嵌入密度的不连续性。正如工作[15]指出的那样,这些基于轨迹的技术面临与跟踪(漂移,遮挡和初始化)和聚类(模型选择和计算复杂性)相关的挑战以及缺乏一个成功对象分割的先验信息。有些工作[5,26,30]提出了有效的优化框架,用于自底向上的最终分割,且同时使用外观和运动线索。

最近,有几种方法[15,19,32]探讨了前景对象在视频数据中应该是什么样。 这些方法在每一帧中产生相当多的对象proposals[11,8],并将视频对象分割的任务转换为对象区域选择问题。 在这个选择过程中,运动和外观信息结合在一起来衡量提案的objectness。 更具体地说,Lee等人发现了一个查找对象的聚类过程 [15],Ma和Latecki [19]提出了一个约束最大权重派生技术(cliques technique)来建模选择过程,Zhang等人提出了一种基于分层有向无环图的框架[32]。 然而,这些基于proposal的技术具有很高的计算复杂性,并且依赖于大量提议导致选择过程的困难和复杂性。

我们的目标是在给定的视频序列的所有帧中从背景中分离出前景对象,而不用任何用户标注和语义先验。我们的方法基于提出的视觉显着性检测技术,该技术结合了多种视觉线索,如运动边界,边缘和颜色。通过我们的方法生成的对象和背景估计为更高级别的对象分割任务提供了一致和可靠的先验信息。这个主题没有多少探索,主要是由于迄今为止专门为视频显着性而设计的方法只有几种。然而,这些显着性方法[14,20,28,26,13,21]通常将其系统建立为现有图像显着性模型与运动线索的简单组合。此外,这些方法的性能还不足以指导分割。我们的方法正确估计物体和背景的位置并获得均匀的显着性图。另一方面,我们的视频对象分割算法基于测地距离,已被证明对有用户画笔的交互式图像和视频分割有效[3,25,2,10]。然而,在许多视觉应用中,例如处理大量视频数据,用户手动处理视频帧通常是乏味和不切实际的。在本文中,我们尝试将测地距离引入到我们的全自动分割框架中,这与以前的方法不同[3,25,2,10],需要用户的小心辅助。


2. Our approach

图1显示了我们的方法的概述。首先,输入帧被超像素化为超像素。对于每个超像素,提取两种类型的边缘:同一帧内的空间静态边缘和相邻帧估计的运动边界边缘。然后在帧内图中采用定义为图像上两个超像素之间的最短路径的测地距离来计算每个超像素的目标概率。基于对象区域被高时空边缘值区域包围的观测结果,目标概率被计算为到帧边界的最短测地距离。自适应阈值用于获取帧的背景和前景区域的初始标签。接下来,通过计算到相邻帧的估计背景区域的测地距离来构造帧间图以生成时空显着性图。最后,为了实现对前景的精确估计,通过显着性结果建立了前景和背景的全局外观模型。每个帧的动态位置模型是从几个后续帧中提取的运动信息估计出来的。 Spatiotem-显着图,全局外观模型和动态位置模型被组合成最终分割的能量函数。我们的源代码将在网上公开发布1。

2.1. Object estimation using spatiotemporal edges

边缘在预测目标边界方面提供了很好的指导,同时也非常有效。 运动信息还提供了一个简化但非常有效的对象指示器,从邻居突然变化的像素通常会获得更多关注。 如图1所示,单帧的静态边缘位置和从两个连续帧估计的光流场可以为检测物体提供有用的信息。 我们的方法基于这两个不同的特征用于初始对象位置。

给定输入视频序列F = {F 1,F 2,...,},我们使用[16]计算与像素x ki处的第k帧F k对应的边缘概率图E c k(x ki)。 后续帧对之间的光流通过大位移运动估计算法获得[7]。 令V k为帧F k的光流场,然后我们计算光流场V k的梯度幅度E o k为E 0 k =∥∇V k∥。 我们使用SLIC将每个帧转换为超级像素[1]。 假设Y k = {Y 1 k,Y 2 k,...,}是帧F k的超像素集合。 给定像素边缘图E c k,将每个超像素Y n k的边缘概率计算为具有十个最大边缘概率c k的像素的平均值。 在Y n k内。 这产生超像素边缘图E类似地,我们使用E o k计算超像素光流大小b o k。 然后,生成时空边缘概率图E map E k:b c k·E b o k。 E k = E(1)

(1)的设计背后的直觉是,如果前景物体的运动模式不同于背景,那么光流的梯度应该在物体边界周围有很大的幅度。 此外,静态边缘地图根据空间信息为对象边界提供指导。 当运动中的空间边缘和时间不连续性通过(1)融合在一起时,输出时空边缘图能够暗示前景物体的位置。 这种现象很容易从图1中观察到,物体区域要么具有高时空边缘值,要么被这些高边缘概率区域包围。 基于这个论点,我们选择使用测地距离来区分视觉上显着的区域和背景,并测量它们的前景可能性。

Intra-frame graph construction 帧内graph构建

对于帧F k,我们用超像素Y k作为节点V k和节点边缘对k之间的链路作为边E k构造一个无向加权图G k = {V k,E k}。相邻超像素Y mk和Y nk之间的权重w mn kke mn∈E被定义为:


其中E k(Y mk)和E k(Y mk)与E k(Y mk) E k(Y nk)分别对应超级像素Y mk和Y nk的时空边界概率。基于图结构,我们导出| V k | ×| V k |权重矩阵W k,其中| V k |是V k中的节点数量。 W k的(m,n)个元素是:W k(m,n)= e kmn。对于每个超像素Y nk,前景的概率P nk通过使用

的最短测地距离来计算,其中T k指示沿着帧F k的四个边界的超像素。图G k中任意两个超像素v 1,v 2∈V k之间的测地距离d geo(v 1,v 2,G k)被定义为沿图G k上最短路径的累积边权重:


其中C v 1,v 2(p),其中,v 1(v 1,v 2,G k)= min | W k·v 1,v 2是连接节点v 1,v 2(分别用于p = 0和p = 1)的路径。如果一个超像素在期望的物体之外,它的前景概率很小,因为可能存在一条通向图像边界的路径,而不通过具有高时空边缘值的区域。而如果一个超像素位于物体内部,这个超像素被边缘概率较高的区域包围,这就增加了测量距离到图像边界的距离。我们将所有前景对象概率P n k归一化为[0,1],帧F k的对象概率图由P k表示。由于我们的图非常稀疏,所以所有超像素的最短路径都是由Johnson算法有效计算的。

2.2. Spatiotemporal saliency

所获得的前景概率图P k可以定位前景物体但不是非常精确。 特别是,由于过分割,不必增加对象边界附近的背景区域的对象概率。 此外,错误的结果可能来自光流估计的不准确性。 幸运的是,前景和背景在视觉上是不同的(通过显着性的定义),并且物体在相邻帧之间在时间上连续。 我们在这里介绍一种利用这些信息来获得时空显着性结果并在相邻帧对之间进行处理的方法。

Inter-frame graph construction

对于每一对连续帧F k和F k + 1,构造一个无向加权图G'= {V',E'}。 节点V'由帧F的所有超像素Y和帧F k + 1的所有超像素Y k + 1组成。 存在两种类型的边缘:帧内边缘链接所有空间上相邻的超像素,并且帧间边缘连接所有时间上相邻的超像素。 超像素在空间上连接,如果它们在同一帧中并且是相邻的,则时间上相邻的超像素指属于不同帧的超像素,但是沿着时间轴具有交叠。 我们将边缘权重指定为CIE-Lab色彩空间中平均颜色之间的欧几里德距离。

对于每个帧,使用自适应阈值通过对象概率图P k将帧F k分解成背景区域B k和类似物体的区域U k。 帧F k的这个阈值σk通过σk =μ(P k)来计算,其中μ(·)通过概率图P k计算帧F k内的所有像素的平均概率。 此外,前一帧的背景信息提供了有价值的先验信息,可以消除由于光流估计不准确造成的伪像。 因此,我们将第k帧的背景区域B k定义为:

(6)中关系背后的主要原理是超像素的显着性值是通过其在颜色空间中到背景区域的最短路径来衡量的,它们都考虑空间和时间背景信息。 图2给出了这个过程的例子。 在获得帧F k和F k + 1的时空显着性图S k和S k + 1之后,我们继续对接下来的两个相邻帧F k + 1和F k + 2执行该过程,直到视频序列结束。

2.3. Spatiotemporal object segmentation




引用文献分析:

基于筛选proposals的方法

 [15] Y. J. Lee, J. Kim, and K. Grauman. Key-segments for video object segmentation. In ICCV, 2011.【33】

[19] T. Ma and L. J. Latecki. Maximum weight cliques with mutex constraints for video object segmentation. In CVPR, 2012.【152】

[32] D. Zhang, O. Javed, and M. Shah. Video object segmentation through spatially accurate and temporally dense extraction of primary object regions. In CVPR, 2013.【215】

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值