A Survey on Deep Learning Technique for Video Segmentation
0. 摘要
本文回顾视频分割的两条基本研究路线:视频目标分割(object segmentation)和视频语义分割(semantic segmentation)。本文介绍它们各自的task setting、背景概念、感知需求、发展历史以及主要挑战。本文详细概述相关的方法和数据集的代表性文献。本文在一些知名的数据集上对这些方法检测(benchmark)。最后,指出这些领域的opne issue以及未来的研究方向。
1. 简介
视频分割(找出视频中具有特殊性质或者语义(semantics)的关键目标)是计算机视觉(computer vision,CV)中基础且有挑战性的的问题。它有无数潜在的应用:自动驾驶、机器人、监控(surveillance)、社交媒体、AR、电影制作以及视频会议。
这个问题已经被传统的CV和机器学习(machine learning,ML)方法解决。包括:
- hand-crafted features (e.g., histogram statistics, optical flow, etc.)
- heuristic prior knowledge (e.g., visual attention mechanism, motion boundaries, etc.)
- low/mid-level visual representations (e.g., super-voxel, trajectory, object proposal, etc.)
- classical machine learning models (e.g., clustering, graph models, random walks, support vector machines, random decision forests, markov random fields, conditional random fields, etc.)
最近,深度网络(DNN),尤其是全卷积网络(FCN)在视频分割取的巨大进展。相比于传统方法,这些基于深度学习(Deep Learning,DL)的(Video Segmentation,VS)算法有更高的精度(有时甚至更有效)。
全卷积网络(fully convolutional network,FCN)采用卷积神经网络实现了从图像像素到像素类别的变换。与卷积神经网络有所不同,全卷积网络通过转置卷积(transposed convolution)层将中间层特征图的高和宽变换回输入图像的尺寸,从而令预测结果与输入图像在空间维(高和宽)上一一对应:给定空间维上的位置,通道维的输出即该位置对应像素的类别预测。
现在大多数的研究视角狭隘,例如,只关注视频的前景/背景分割。本文系统地介绍了VS的最新进展,跨度从任务公式化(task formulation)到分类(taxonomy)、从算法到数据集、从未解决的问题到未来的研究方向,涵盖的关键点包括:
- 任务类别(前景/背景分离、语义分割)</

本文回顾了视频分割的两大研究方向:视频目标分割与视频语义分割,详细介绍了任务设置、背景概念、感知需求及主要挑战,并概述了相关方法与数据集。文章还对比了传统方法与基于深度学习方法的优劣。
最低0.47元/天 解锁文章
822

被折叠的 条评论
为什么被折叠?



