视频语义分割介绍

SIGAI_csdn

于 2018-12-10 14:28:22 发布

阅读量8.7k

点赞数 5

分类专栏：机器学习人工智能 AI 文章标签：机器学习

本文链接：https://blog.csdn.net/SIGAI_CSDN/article/details/84939464

版权

本文介绍了视频语义分割任务的挑战与重要性，回顾了图像语义分割模型，如PSP Net和Deeplabv3。针对视频语义分割，文章探讨了如何利用时序信息提高精度，如Semantic Video CNNs通过Representation Warping和Semantic Video Segmentation by Gated Recurrent Flow Propagation方法。同时，也讨论了降低视频冗余计算量的策略，如Deep Feature Flow和Low-Latency Video Semantic Segmentation。这些工作旨在利用帧间相似性和时序信息，提高分割精度和运行效率。

摘要由CSDN通过智能技术生成

其它机器学习、深度学习算法的全面系统讲解可以阅读《机器学习-原理、算法与应用》，清华大学出版社，雷明著，由SIGAI公众号作者倾力打造。

摘要：

随着深度学习的发展，图像语义分割任务取得了很大的突破，然而视频语义分割仍然是一个十分具有挑战性的任务，本文将会介绍视频语义分割最近几年顶会上的一些工作。

1、基本任务介绍：

语义分割任务要求给图像上的每一个像素赋予一个带有语义的标签，视频语义分割任务是要求给视频中的每一帧图像上的每一个像素赋予一个带有语义的标签。

近些年来随着卷积神经网络的发展，尤其是全卷积网络（Fully Convolution Network）的产生，语义分割这个任务在各个数据集上取得了很大的突破．这个任务本身有很多应用场景，强调计算机对场景进行感知和理解，因此在机器人视觉，自动驾驶等应用中有着很重要的地位。然而实际上，相比于单张图像，我们更容易获取视频数据，而视频数据本身有很强的帧冗余性和不确定性，如果我们把视频直接一帧一帧地送入图像分割的模型中，必然会带来很大的计算开销，并且由于场景中运动物体的变化，也会导致分割结果不稳定性，比如一个物体前一帧是类别Ａ，而到中间的几帧的时候突然变成的类别Ｂ，或者物体的内部出现语义类别不一致的现象。所以目前视频语义分割主要研究的重点大致有两个方向：第一个是如何利用视频帧之间的时序信息来提高图像分割的精度，第二个是如何利用帧之间的相似性来减少模型计算量，提高模型的运行速度和吞吐量。

任务的评估指标和图像语义分割相同均为mIOU(mean Intersection-over-Union)，由于是video数据，同时会测试模型的FPS作为video加速方向的一个平衡．目前主流的数据集是Cityscape, Cityscape 数据集是目前主流的基于自动驾驶场景的语义分割的数据集，此外还有部分文章还使用了Camvid数据集。

2、方法介绍

2.1 图像语义分割简要回顾

这里我将会简单地回顾下几个经典的图像语义分割模型。目前的大多数state-of-the-art的模型都是采用特征网络（backbone）加上下文模块(context modeling)。其中特征网络一般是较深的分类网络，比如resnet系列，这一部分的主要目标为了获取更好的特征表示。而上下文模块的目标是让每个像素的特征之间建立关系，进而获取整个图像的场景信息，让分割的结果的语义一致性更强，这个也是目前研究的一个热点。

图片 1.png

图1: PSP net

PSP-net使用了resnet101作为网络的backbone, 提出了使用pyramid pooling module即特征网络金子塔结构作为context modeling来获取不同尺度的信息，具体操作为把resnet的最后一个block的输出做了4种不同尺度的average pooling操作再上采样回原来尺度，最终再把这些不同的尺度的信息进行融合，这样可以更好地捕获不同尺度的context信息。