本文的组织结构如下
- 解译语义分割问题;
- 综述一些语义分割的方法;
- 概述一些重要的论文。
本文将介绍两种不同的分类架构解决这个问题。
1、编码器-解码器(encoder-decoder)架构
2、使用空洞/带孔卷积(dilated/atrous convolutions)结构,从而去除池化层。
条件随机场(Conditional Random Field,CRF)后处理操作通常用于进一步改善分割的效果。
论文概述
1、FCN
2、SegNet
3、Dilated Convolutions
4、DeepLab (v1 & v2)
5、RefineNet
6、PSPNet
7、Large Kernel Matters
8、DeepLab v3
对论文简单介绍
FCN
Fully Convolutional Networks for Semantic Segmentation
Submitted on 14 Nov 2014主要贡献:
* 推广端到端卷积网络在语义分割领域中的应用
* 修改ImageNet预训练模型并应用于图像语义分割
* 采用解卷积层(deconvolutional layer)实现上采样
* 引入跳跃连接(skip connections)改善上采样的粒度(coarseness )
SegNet
SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation
主要贡献:
将最大池化索引(Maxpooling indices)转换到解码器,从而提升分割分辨率。
Dilated Convolutions
Multi-Scale Context Aggregation by Dilated Convolutions
Submitted on 23 Nov 2015主要贡献:
- 采用空洞卷积(dilated convolution)作为能够实现像素级预测的卷积层
- 提出“背景模块”(context module),用于空洞卷积的多尺度聚合
DeepLab (v1 & v2)
v1 : Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs
Submitted on 22 Dec 2014v2 : DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs
Submitted on 2 Jun 2016主要贡献:
- 采用了带孔/空洞卷积(atrous/dilated convolution)
- 提出了金字塔型的空洞池化(atrous spatial pyramid pooling,ASPP)
- 采用全连接的CRF
RefineNet
RefineNet: Multi-Path Refinement Networks for High-Resolution Semantic Segmentation
Submitted on 20 Nov 2016主要贡献:
- 编码器-解码器架构拥有精心设计的解码器模块
- 所有组件采用残差连接(residual connection)的设计
PSPNet
Pyramid Scene Parsing Network
Submitted on 4 Dec 2016主要贡献:
- 提出金字塔池化模块帮助聚合上下文信息
- 采用了辅助损失(auxiliary loss)
Large Kernel Matters
Large Kernel Matters – Improve Semantic Segmentation by Global Convolutional Network
Submitted on 8 Mar 2017主要贡献:
- 提出具有大型核卷积的编码器-解码器架构
DeepLab v3
Rethinking Atrous Convolution for Semantic Image Segmentation
Submitted on 17 Jun 2017主要贡献:
- 改进了金字塔型的空洞池化
- 级联了多个空洞卷积