【没有哪个港口是永远的停留~论文解读】基于光流的分割 Dynamic Video Segmentation Network

magic_shuang

于 2023-12-28 19:23:23 发布

阅读量898

点赞数

分类专栏：论文研究、复现、总结文章标签：计算机视觉深度学习人工智能

本文链接：https://blog.csdn.net/magic_shuang/article/details/135276342

版权

论文研究、复现、总结专栏收录该内容

40 篇文章 5 订阅

订阅专栏

2.1 Dynamic Video Segmentation Network

2.1.1 Introduction

网络分2部分：分割网络、流网络

分割网络：可以通过任何当代最先进的体系结构来实现

流网络：是在FlowNet 2.0[35]的基础上开发的。我们将每一帧划分为多个区域。连续帧之间差异较小的区域，其中大多数图像内容相似，应该遍历流网络（下图）

在内容发生显著变化的连续帧之间存在巨大差异的区域，必须通过分割网络（下图）

为了定义一种系统策略，在保持灵活性和可定制性的同时，有效地为两个网络分配帧区域，我们进一步提出了两种技术：

（i）自适应关键帧调度策略
（ii）决策网络（DN）

自适应关键帧调度策略：是决定是否通过分割网络处理输入帧区域的技术。之前采用的固定关键帧调度策略，这个方法是：按置信度来更新关键帧。

expected confidence score ---高于阈值-----→流网络

---低于阈值–----→分割网络

其中：决策阈值可针对不同场景进行调整。

决策网络 DN：得到估计输入帧区域的 expected confidence score

在DVSNet中，DN被实现为CNN，其网络大小远小于图像识别的典型网络架构。DN可以通过监督学习进行培训，具体内容见第3.4节。

2.1.2 背景

光流

光流估计，以前的大多数方法主要是为在CPU上运行而开发的，未能结合GPU提供的执行效率。对于在GPU上运行的深度学习方法，FlowNet[34]是第一个将DCNN应用于光流估计的模型。随后，它演变为两种最新的体系结构。一种被称为空间金字塔网络（SpyNet）[43]，它使用[44]的从粗到细的空间金字塔结构来学习每个金字塔级别的残差流。另一个是FlowNet 2.0[35]，它引入了一种新的学习时间表、堆叠架构和专门用于小运动的子网络，以增强流量估计。在本文中，我们将FlowNet 2.0的构建块集成到DVSNet中，以加速语义视频分割。

视频语义分割

Clockwork对网络中的不同层的特征图采用不同的更新周期，并在某些网络层中重用过去帧的特征图以减少计算[29]。

深度特征流（DFF）利用光流网络生成流场，并将特征图从关键帧传播到附近帧[30]。据报道，Clockwork的运行速度比每帧方法快1.3倍[29]，然而，在Cityscapes数据集上，其mIoU从65.9%下降到64.4%[2]，相比之下，DFF的运行速度是每帧方法的三倍，在相同的数据集上，其mIoU仅从71.1%略微下降到70.0%[30]。

DFF在准确性和效率方面都比Clockwork表现出更好的性能。

然而，一个主要的缺点是它采用了固定的关键帧调度策略。受DFF的启发，所提出的DVSNet采用了自适应关键帧调度策略，在准确性和效率方面都比DFF提供了更好的性能。

2.1.3 DVSNet网络结构和方法

基于DN的决策，在步骤3中，帧区域被转发到不同的路径，以生成它们的区域语义分割。对于空间扭曲路径，使用特殊的扭曲函数W（*）[30]来处理具有来自关键帧的同一区域的分割Sk的流网络F的输出，以生成该区域的新分割Oc。请注意，流量网络本身无法生成区域图像分割。它只是通过光流预测物体的位移，并且需要依赖于翘曲函数W（*）和关键帧中包含的信息。我们建议感兴趣的读者参考[30]了解W（*）的更多详细信息。

自适应调度阈值

下图是DFF的取关键帧策略(a);DVSNet取关键帧策略(b);