语义分割(Semantic segmentation)——综述
背景:
语义分割,就是将图像中感兴趣的目标进行识别,并将其标记出来( involves partitioning images (or video frames) into multiple segments or objects)的过程,随着图像处理和计算机视觉的大热,对语义分割的准确率和速度要求也不断提高。过去的语义分割,通常使用机器学习的方法,随着13年,特别是15年后的深度神经网络大火,新出现的语义分割模型,也大多使用深度神经网络。
语义分割目前的用途:
场景理解、医学图像分析、机器人感知(车辆导航)、视频监控、增强现实、图像压缩
语义分割的分类:
1、对一张图片中,单个对象进行标记
2、对一张图片中,所有感兴趣对象进行标记(predicts a single label for the entire image)
目前研究的重点和难点,是第二种情况。严格来说,第二种情况的实现,是通过将第一中情况,与实例分割( Instance segmentation)相结合来实现的。
语音分割(DL)的主要方法:
- Fully convolutional networks:
全卷积网络方法 - Convolutional models with graphical models:
卷积+图模型 - Encoder-decoder based models:
编码——解码 模型 - Multi-scale and pyramid network based models:
金字塔网络,以实现可以应对不同size的输入图片,避免因对输入图片进行resize而造成的图像失真 - R-CNN based models (for instance segmentation):
区域卷积网络,使用 候选框+分类+predict mask 三重网络 - Dilated convolutional models and DeepLab family:
扩大卷积,为了在获得更大的感受野的同时,不会增加太多计算量而提出的算法。比起原始的卷积方法,扩大卷积在获得相同感受野的前提现,要计算的参数通常会呈几何倍减少,而且感受野越大,效果越明显。扩大卷积的提出,使得实时分割( real-time segmentation)得以实现。 - Recurrent neural network based models:
因为相邻像素点之间是有关联的,并不是单独存在的,所以模型提出,不用CNN,而是改用支持前后信息关联的RNN模型。这里模型通过四个方向的顺序(从左向右,从右向左,从上向下,从下向上)来对图像提取信息。 - Attention-based models:
在传统深度网络中添加了注意力机制。 - Generative models and adversarial training:
基于生成对抗的思想,G model 输入原始图像,输出分割图像;D model 输入G生成的图像和人工分割的图像,输出0 or 1(判断是假 or 真)。 - Convolutional models with active contour models
- Other models