【未完待续】综述：用于视频分割（Video Segmentation）的深度学习

原创

已于 2022-12-16 16:13:02 修改 · 1w 阅读

75 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #人工智能

于 2022-12-15 00:10:39 首次发布

本文回顾了视频分割的两大研究方向：视频目标分割与视频语义分割，详细介绍了任务设置、背景概念、感知需求及主要挑战，并概述了相关方法与数据集。文章还对比了传统方法与基于深度学习方法的优劣。

A Survey on Deep Learning Technique for Video Segmentation

0. 摘要

本文回顾视频分割的两条基本研究路线：视频目标分割（object segmentation）和视频语义分割（semantic segmentation）。本文介绍它们各自的task setting、背景概念、感知需求、发展历史以及主要挑战。本文详细概述相关的方法和数据集的代表性文献。本文在一些知名的数据集上对这些方法检测（benchmark）。最后，指出这些领域的opne issue以及未来的研究方向。

1. 简介

视频分割（找出视频中具有特殊性质或者语义（semantics）的关键目标）是计算机视觉（computer vision，CV）中基础且有挑战性的的问题。它有无数潜在的应用：自动驾驶、机器人、监控（surveillance）、社交媒体、AR、电影制作以及视频会议。

这个问题已经被传统的CV和机器学习（machine learning，ML）方法解决。包括：

hand-crafted features (e.g., histogram statistics, optical flow, etc.)
heuristic prior knowledge (e.g., visual attention mechanism, motion boundaries, etc.)
low/mid-level visual representations (e.g., super-voxel, trajectory, object proposal, etc.)
classical machine learning models (e.g., clustering, graph models, random walks, support vector machines, random decision forests, markov random fields, conditional random fields, etc.)

最近，深度网络（DNN），尤其是全卷积网络（FCN）在视频分割取的巨大进展。相比于传统方法，这些基于深度学习（Deep Learning，DL）的（Video Segmentation，VS）算法有更高的精度（有时甚至更有效）。

全卷积网络（fully convolutional network，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。与卷积神经网络有所不同，全卷积网络通过转置卷积（transposed convolution）层将中间层特征图的高和宽变换回输入图像的尺寸，从而令预测结果与输入图像在空间维（高和宽）上一一对应：给定空间维上的位置，通道维的输出即该位置对应像素的类别预测。

现在大多数的研究视角狭隘，例如，只关注视频的前景/背景分割。本文系统地介绍了VS的最新进展，跨度从任务公式化（task formulation）到分类（taxonomy）、从算法到数据集、从未解决的问题到未来的研究方向，涵盖的关键点包括：