《A Survey on Deep Learning Technique for Video Segmentation》视频分割综述阅读笔记(翻译)

最新推荐文章于 2024-07-30 15:36:05 发布

起个什么名字好w

最新推荐文章于 2024-07-30 15:36:05 发布

阅读量1.1k

点赞数 1

分类专栏：语义分割_论文阅读笔记视频分割文章标签：深度学习计算机视觉

本文链接：https://blog.csdn.net/weixin_43118001/article/details/121780106

版权

语义分割_论文阅读笔记同时被 2 个专栏收录

5 篇文章

订阅专栏

视频分割

1 篇文章

订阅专栏

《A Survey on Deep Learning Technique for Video Segmentation》视频分割综述阅读笔记(背景部分翻译)

作者：Wenguan Wang, Tianfei Zhou, Fatih Porikli, FellowIEEE, David Crandall, Luc Van Gool
发表于：CVPR2021

前言

这是一篇针对视频分割任务总结的相当全面的综述性文章。认真看完这篇文章会对视频分割任务有一个较为全面的了解，包括视频语义分割和视频目标分割及更细化的任务分类。这里只把文章的前半部分提到的一些概念即背景进行翻译记录，后面具体技术和论文要参照原文阅读更易于联系起来。

摘要

视频分割任务即对视频序列中的帧进行分割，在实际生活中有着重要的意义，包括自动驾驶、视频会议中的虚拟背景等方面的应用。这篇文章从任务的设置、背景概念、感知需求、发展历程和主要面临的挑战等方面综述了视频分割任务中的两个基本研究方向：一般目标分割（未知类别）；视频的语义分割。在文章中还对相关的方法和数据集的代表性文献进行了详细的概述。同时对一些方法的性能进行了定量的比较，最后指出了该领域尚未解决的一些问题和挑战，并提出了可能的建议。

1.介绍

该篇综述首次系统地介绍了视频分割的最新进展，从任务类型到类别，从算法到数据集，从未解决的问题到未来的研究方向。涵盖了几个关键方面，包括任务类别(即前/背景分离vs语义分割)，处理模式(即自动、半自动和交互式)，学习方式(即监督、无监督和弱监督)，以及澄清混淆的术语(如背景消除，运动分割等)。
本文主要关注视频分割的两个主要分支，即视频对象分割(图1(a-e))和视频语义分割(图1(f-h))的最新进展，可以进一步划分为8个子领域。作者提到，虽然把重点限制在基于深度学习的视频分割解决方案上，但是在这个快速发展的领域仍然有数百个作品发表，这使得回顾所有这些作品是不切实际的(没有必要)。所以作者选择在权威期刊和会议上发表的有影响力的论文。因此，本文将包括一些非深度学习的视频分割模型和其他领域的相关文献，如视频目标检测和视觉跟踪，作为必要的背景知识。

2. 背景

2.1 问题制定和分类

本文还从不同的角度介绍了视频分割模型的分类。形式上，X表示输入空间，Y表示输出分割空间。基于深度学习的视频分割解决方案通常寻求学习一个理想的视频-分割映射f*: X–>Y。

2.1.1 视频分割类别

视频前/背景分割（视频目标分割，VOS）
VOS是最经典的视频分割设置，是对视频序列中占主导地位的一般对象(未知类别)进行分割的任务。因此Y是一个二进制的前/背景分割空间。VOS通常用于视频分析和编辑的相关应用场景，如电影编辑中的目标剪切、基于内容的视频编码、视频会议中的虚拟背景创建等；它并不关心前景的确切语义类别。
视频语义分割（VSS）
VSS是将图像语义分割直接延伸到时空领域的一种方法，其目的是从视频中提取出预定义语义类别(如汽车、建筑、道路)中的对象。因此，Y对应于一个多类语义解析空间。VSS是许多应用领域的感知基础，如机器人传感、人机交互、自动驾驶等，这些都需要对物理环境有较高的理解。
Remark：VOS和VSS确实有一些共同的挑战，比如快速运动，遮挡。然而，由于其具体的应用场景，一些需要关注的挑战是不同的。例如，VOS可能会更多地关注具有摄像机运动、大变形和外观变化的场景，这些场景通常出现在人造的媒体中。而VSS追求的是在精度和延迟之间进行权衡，更注重如何识别小目标、进行模型并行化和增强跨域泛化能力，这对处理车载摄像机采集的数据至关重要。

2.1.2 视频分割的处理模式

根据推理过程中涉及到的人为干预程度，VOS方法可以进一步分为三种类型:自动、半自动和交互式。
自动视频目标分割（AVOS）
AVOS，或无监督视频分割或zero-shot视频分割，以自动方式执行VOS，无需任何手动初始化(图1(a-b))。输入空间X仅指视频域V。AVOS适用于视频分析，但不适用于需要灵活分割任意对象或其部分的视频编辑;典型的应用是在视频会议中创建虚拟后台。
半自动视频目标分割（SVOS）
SVOS，也被称为半监督视频分割或one-shot视频分割，涉及有限的人工检查(通常在第一帧提供)，以确定所需的对象(图1©)。SVOS解决了AVOS技术在定义目标对象方面缺乏灵活性的局限性，同时需要额外的人工干预。SVOS通常应用于用户友好设置(没有专门的设备)，例如在移动电话中创建视频内容。因此有x =VM，其中V表示视频空间，M表示人为干预。SVOS也被称为像素跟踪或Mask传播。
其他一些形式包括边界框和涂鸦。从这个角度来看，语**言引导视频对象分割(LVOS)**是SVOS的一个分支，它通过对期望对象的语言描述给予人为干预，实现高效的人机交互(图1(e))。在有限的人为干预下，如何充分利用目标信息是SVOS的核心挑战之一。
交互式视频对象分割（IVOS）
SVOS模型被设计为一旦目标被识别就自动运行，而IVOS系统在整个分析过程中纳入了用户指导(图1(d))。因此，IVOS可以获得高质量的片段，很适合计算机生成图像和视频后期制作，但需要繁琐的人力监督。IVOS也引起了图形界的关注，称为视频剪辑。IVOS的输入空间X为VS，其中S通常指人工涂鸦。关键挑战包括:1)允许用户方便地指定分割约束；2)在分割算法中加入人为约束；3)对约束条件做出快速响应。
VSS方法通常工作在自动模式下(图1(f-h))，即X恒等于V；只有少数早期的方法处理半自动设置，称为标签传播。
**Remark：**无监督和半监督通常用于VOS领域，以确定在推理过程中涉及的人类交互的数量。但它们很容易与无监督学习和半监督学习混淆。因此，文章作者呼吁社会各界用自动应答和半自动应答来代替这两个模糊术语，明确任务定义。

2.1.3 视频分割的学习范例

根据逼近f*的学习策略，目前基于深度学习的视频分割模型可以分为三类：基于监督的、无监督的和弱监督学习。
基于监督学习方式
现代视频分割模型通常以完全监督的方式学习，先验知识是确定的。训练需要大量注释良好的数据。
基于无监督学习方式
在这种学习方式中，先验知识通常是建立在视频数据的某些固有属性上(例如，跨帧一致性)。
基于弱监督学习方式
在这种情况下，先验知识通常是一个更容易注释的域，例如标记/目标候选框/涂鸦级的监督。
**Remark：**目前，基于深度监督学习的方法在视频分割领域占主导地位。然而，在无监督或弱监督的设置中探索任务更有吸引力，不仅因为它减轻了注释的负担，而且还因为它通过探索先验知识激发了对任务本质的深入理解。

3. 基于深度学习的视频分割

3.1 基于深度学习的VOS模式

VOS旨在从视频序列中提取通用的前景对象，而不考虑语义类别识别。根据参与推断的人为干预程度，可将VOS模型分为三类：自动VOS（AVOS）、半自动VOS（SVOS）和交互式VOS（IVOS）。此外，尽管语言引导视频对象分割(LVOS)属于更广泛的分类，但由于其多模式任务设置，文章仅介绍LVOS方法。