Semantic Video CNNs through Representation Warping中文翻译

最新推荐文章于 2023-03-23 17:21:28 发布

不秃头的小猴子

最新推荐文章于 2023-03-23 17:21:28 发布

阅读量516

点赞数

分类专栏： video semantic segmentation 文章标签：计算机视觉

本文链接：https://blog.csdn.net/tp1993/article/details/115211794

版权

基于表示扭曲的语义视频中枢神经系统

摘要
1.引言
2.相关工作
3.将图像中枢神经系统扭曲为视频中枢神经系统
- 3.1NetWarp
4.实验
- 4.1CamVid Dataset
- 4.2Cityscapes Dataset
5.结论和展望

摘要

在这项工作中，我们提出了一种将静态图像语义分割的神经网络模型转换为视频数据的神经网络的技术。我们描述了一种扭曲方法，它可以用很少的额外计算成本来扩充现有的体系结构。这个模块被称为NetWarp，我们演示了它在一系列网络架构中的使用。主要设计原则是使用相邻帧的光流来扭曲跨时间的内部网络表示。这项工作的一个关键见解是，快速光流方法可以与许多不同的CNN架构相结合，以提高性能和端到端训练。实验证明，当视频流可用时，这种基于视频的方法只会带来很少的额外计算成本，同时会提高性能。我们在CamVid和Cityscapes基准数据集上实现了新的最先进的结果，并在不同的基线网络上显示出一致的改进。我们的代码和模型可以在 http://segmentation.is.tue.mpg.de上找到

1.引言

可以说，近年来，随着卷积神经网络方法的出现，语义图像分割技术的经验性能有了显著的提高。这一发展的驱动力一直是大型图像分割数据集，下一个自然的挑战是开发快速和准确的视频分割方法。
提出的用于语义图像分割的CNN模型的数量远远超过用于视频数据的模型。将单个CNN图像用于视频的一种天真方法是逐帧应用它，实际上完全忽略了时间信息。然而，逐帧应用通常会产生帧间抖动，尤其是在对象边界。替代方法包括在视频数据上使用条件随机场模型来融合跨帧的预测标签信息，或者为视频开发定制的CNN架构。适用于美国有线电视新闻网预测的一个单独的通用报告格式有其局限性，即它无法访问美国有线电视新闻网的内部表示。因此，通用报告格式对已经压缩的表示(标签)进行操作。此外，现有的视频数据通用报告格式在实际应用中往往太慢。
我们旨在开发一种视频分割技术，该技术利用视频帧中的时间相关性，并重用强单图像分割神经元网络。为此，我们提出了一种概念简单的方法来将现有的图像中枢神经系统转换成视频中枢神经系统，这种方法只使用非常少的额外计算资源。我们通过“网络扭曲”来实现这一点，网络扭曲是一种神经网络模块，它将前一帧的中间CNN表示扭曲到当前帧的相应表示。具体来说，NetWarp模块使用两个相邻帧之间的光流，然后通过一组额外的操作来学习转换中间的CNN表示。如图1所示，可以在CNN层次结构的不同层使用多个NetWarp模块来跨时间扭曲深层中间表示。
我们的NetWarp实现只需要大约2.5毫秒来处理128 × 128的CNN中间表示和1024个特征通道。它是完全可微的，可以在整个CNN网络的训练过程中使用标准反向传播技术来学习。此外，所得到的具有NetWarp模块的CNN视频模型以在线方式处理帧，即当预测当前帧的分割时，系统只能访问当前和先前的帧。
我们使用NetWarp增强了几个现有的最先进的图像分割CNNs。在CamVid [2]和Cityscapes [7]的当前标准视频分割基准上，我们始终观察到与逐帧模式下应用的基础网络相比，性能有所提高。我们的视频CNNs也优于其他最近提出的(CRF)架构和视频传播技术，在CamVid和Cityscapes数据集上建立了一个新的艺术状态。
第二节讨论了视频分割的相关工作。在第3节中，我们描述了NetWarp模块，以及它如何用于将图像CNNs转换为视频CNNs。第四节介绍了在摄像机和城市风景上的实验。我们在第五节以讨论结束。
在这里插入图片描述

2.相关工作

我们对语义分割文献的讨论仅限于那些与视频数据有关的作品。大多数语义视频分割方法首先使用分类器(如随机森林或CNN)获得单帧预测，然后使用循环冗余校验或过滤技术传播该信息，以使结果在时间上更加一致。
解决语义视频分割的一种可能性是通过3D场景结构。一些作品[3，12，41]建立了使用3D点云的模型，这些点云是通过运动获得的结构。基于这些几何和/或运动特征，改进了语义分割。最近的工作[27，38]提出了联合估计2D语义和从视频数据中重建场景的3D。虽然3D信息信息量很大，但获取它的成本也很高，并且会带来难以恢复的预测误差。
更流行的方法[10，4，8，34，42，28，32]是构建连接不同视频像素的大型图形模型，以实现跨帧的时间一致性。[8]的工作在Potts模型的基础上提出了一个具有时空能量项的扰动映射随机场模型。[4]使用帧之间的动态时间链接，但优化了具有时间能量项的2D通用报告格式。在[42]中构建了一个跨视频帧的3D密集循环冗余校验，并使用平均场近似推理进行了优化。[32]的工作提出了一个联合模型，用于预测超体素的语义标签、对象跟踪和对象之间的几何关系。最近，[28]提出了一种跨视频像素优化3D密集CRF特征空间的技术。由此产生的通用报告格式模型应用于美国有线电视新闻网或其他技术获得的一元预测之上。在[16]中，设计了估计光流和语义分割的联合模型。[29]提出了一种通用报告格式模型和一种有效的推理技术，用于融合由递归时间约束玻尔兹曼机估计的具有长距离时空线索的CNN一元数据。我们避免了CRF构造，直接过滤中间的CNN表示。这导致快速的运行时间和通过梯度下降训练任何增强模型的自然方式。
与我们的技术更相关的是快速过滤技术。例如，[34]学习连续帧的像素之间的相似性函数，以跨时间传