《Deep Spatio-Temporal Random Fields for Efficient Video Segmentation》论文阅读

摘要

在这项工作中,我们介绍了一种时间和内存有效的结构化预测方法,可以在两个时间空间耦合神经元决策。我们表明,我们能够通过利用深度高斯条件随机场(GCRF)的最新进展在密集连接的时空图上执行精确和高效的推断。 我们的方法称为VideoGCRF(a)是有效的,(b)具有独特的全局最小值,并且(c)可以与当代深度网络一起被端对端地训练以用于视频理解。 我们在时间域中试验多种连接模式,并在视频的语义和实例分段任务的强基线上提出经验性改进。我们的实现基于Caffe2框架,并将在https://github.com/siddharthachandra / gcrf-v3.0上提供。

引言

视频理解在很大程度上仍未解决,尽管在过去几年里图像理解有了显着改进。目前的图像分类和语义分割模型的准确性在动作识别和视频分割中尚未达到匹配的程度,这在一定程度上是由于缺乏大规模的基准测试,也是由于时间变量引入的复杂性。结合内存和计算需求的增加,视频理解带来了需要新方法的其他挑战。

我们在这项工作中的目标是及时将神经网络所做出的决策耦合起来,其方式是允许信息跨帧传输,从而在空间和时间上产生一致的决策。为了实现这一目标,我们采用结构化预测方法,其中利用输出空间的结构来训练更高精度的分类器。为此,我们引入VideoGCRF,这是一种扩展到最近为单帧结构预测提出的深度高斯随机场(DGRF)技术的视频分割[5,6]。

我们展示了我们的算法可以用于各种视频分割任务:语义分割(CamVid数据集),实例跟踪(DAVIS数据集)以及实例分割与Mask-RCNN样式对象检测的组合,特别为人类(DAVIS Person数据集)。...

我们展示了我们的算法可以用于各种视频分割任务:语义分割(CamVid数据集),实例跟踪(DAVIS数据集)以及实例分割与Mask-RCNN样式对象检测的组合,特别为人类(DAVIS Person数据集)。

我们的工作继承了DGRF方法的所有有利特性:特别是,我们的方法具有通过线性系统的解决方案提供(a)精确推理结果的优点,而不依赖于近似平均场推断[24,25 (b)允许精确计算反向传播期间的梯度,从而减轻对[41](c)中使用的需要存储器要求的反向传播时间的需要,使得可以使用非参数项对于成对项而言,我们并不局限于预定形式的成对项,如[24,25]和(d)便于对密集和稀疏连通图的推理,以及促进两种图拓扑的混合。

在关于时空结构预测的文献中,与我们精神最接近的工作是[25]关于特征空间优化的工作。尽管我们的作品有几个概念相似之处,但我们的方法在技术层面完全不同。在我们的例子中,时空推断是作为一个结构化的“横向连接”层来实现的,该层与前馈CNN一起训练,而在后处理阶段应用[25]的方法来改善分类器的结果。

图1:我们的VideoGCRF方法概述:我们首先通过完全卷积网络将多个图像联合分割以获得每像素级分(“一元”项U)以及空间(S)和时间(T)嵌入。 我们将不同空间和时间位置的预测结合在各自嵌入的内积中,这里以箭头指向图边。 最终的预测是通过求解线性系统得到的; 这可以消除虚假响应,例如 在左侧路面上,通过在整个时空图上扩散每像素节点得分。CRF和CNN架构是端到端联合训练,而CRF推理是精确且特别高效的。

Previous work

结构化预测通常被语义分割算法[5,6,7,9,10,35,38,41]用于捕获图像帧内的空间约束。这些方法可以天真地扩展到视频,通过为每个帧分别进行预测。然而,这样做时,我们忽略了时间上下文,从而忽略了连续视频帧彼此相似的趋势。为了解决这个缺点,许多深度学习方法采用某种结构化预测策略来确保预测中的时间一致性。捕获时空上下文的初始尝试涉及设计深度学习体系结构[22],隐式学习连续图像帧之间的交互。许多后续的方法使用循环神经网络(RNN)[2,12]来捕获图像帧之间的相关性。其他方法利用从现有技术方法[17]计算的光流作为网络的附加输入[14,18]。最后,[25]通过概率图形模型的成对条件显式捕获时间约束,但是操作是事后的,即不与底层网络共同训练。

在这项工作中,我们关注三个问题,即(i)语义和(ii)实例视频分割以及(iii)语义实例跟踪。语义实例跟踪是指我们为视频的第一帧提供基本事实的问题,目标是在随后的视频帧中预测这些实例掩码。解决这一任务的第一套方法首先是在大型数据集(如Imagenet或COCO)上预先进行图像分类的深层网络,并在具有标记的地面实况的视频的第一帧上对其进行微调[4,37],可选地利用各种数据增强机制[23],以增加视频后续帧中的缩放/姿态变化和遮挡/截断的鲁棒性。第二套方法提出这个问题作为一个翘曲问题[29],其目标是扭曲第一帧的分割使用图像和光流作为额外的输入[19,23,26]。

许多方法试图利用时间信息来改进静态图像分割方法以进行视频分割。引入Clockwork的convnets [32]是为了在不同的时间利用特性的持久性,并根据它们的语义稳定性以不同的更新速率处理一些图层。 [25,42]采用了类似的特征流传播思想。在[28]中,使用流量和空间转换器网络进行分段。而不是使用光流,未来分割的预测[21]也可能在时间上平滑逐帧获得的结果。最后,通过扭曲静态分割CNN的特征映射来模拟视频分割网络,该任务的最新技术[14]改进了PSPnet [40]。

VideoGCRF

在这项工作中,我们介绍VideoGCRF,扩展[5,6]中介绍的深高斯CRF方法以有效地操作视频分割。通过引入CRF,我们可以在应该相互影响的变量组之间耦合决策;空间连接已经在[5,6]中被探索,并且可以被理解为将信息从不同的图像位置(例如人脸)传播到更模糊的区域(例如人的衣服)。在这项工作中,我们还引入了时间连接来整合信息随时间的变化,例如,通过传播不同时间范围内的信息,我们可以正确分段对象不清晰可见的帧。

我们认为对我们系统的输入是包含V帧的视频V = {I1,I2,...,IV}。我们将网络的预测表示为xv,v= 1,...,V,其中在任何帧处,预测xi∈RPL为每个P图像块提供L类分数的实值向量;为简洁起见,我们用N = P×L表示预测变量的数量。对应于补丁的L分数可以理解为输出到产生标签后缀的softmax函数。

高斯CRF(或G-CRF)模型通过高斯多变量密度为视频定义联合后验分布:

其中BV,AV分别表示“一元”和“两两”项,BV∈RNV和AV∈RNV×NV。 在本工作的其余部分,我们假设A,B取决于输入视频,为了方便起见,我们省略了V上的调节。

G-CRF的特别之处在于,假设成对项A的矩阵是正定的,最大后验(MAP)推断仅仅等于求解线性方程组Ax = B。实际上,作为 在[5]中,我们可以放弃概率公式并将G-CRF作为深层网络的一部分的结构化预测模块。 在正向传递中,由第二节描述的前馈CNN传递的一元和成对项B和A。 2.1被馈送到G-CRF模块,该模块通过求解由该设备给出的线性方程组来执行推断以恢复预测x

λ是一个小的正常数加到A的对角线条目,使其为正定。

对于单帧情况(V = 1),迭代共轭梯度[33]算法用于快速求解稀疏[5]和完全连接[6]图的结果系统; 尤其是GPU上30ms的推理速度,几乎比实施DenseCRF快两个数量级,同时给出更准确的结果。

我们在这项工作中的第一个贡献在于设计矩阵AV的结构,以便随着帧数的增加,最终的系统解决方案仍然可以管理。 一旦我们描述了我们如何构建AV,然后我们将转而以端到端的方式学习我们的网络。

图2:2个视频帧的VideoGCRF原理图。我们的网络采用2个输入图像,并在前馈模式下传送每帧一帧b1,b2,空间嵌入A1,A2和时间嵌入T1,T2。 我们的VideoGCRF模块收集这些信息并解决方程式中的推理问题。 2来恢复预测x1,x2。在反向传递期间,预测的梯度被传送到VideoGCRF模型。 它使用这些来计算一元项的梯度以及时空嵌入,并通过网络向后传播它们。

 


  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值