CNN用于语义分割,主要问题是重复的下采样操作带来的分辨率的下降。RefineNet提出了一个多路径的改进网络,提取下采样过程中所有信息,使用长距离残差连接获得高分辨率的预测。用精细层的特征
,高层的语义信息可以得到改善。另外,论文使用了链式残差池化,可以获取丰富的背景知识。
高层语义特征对获取图像区域的类别标识有帮助,而低层特征对获取边缘、突变有帮助,如何获取中间层的特征还是个开放性问题。论文设计了一个方法获取中间层特征。
相关工作
FCNN:region-proposal based methods
DeepLab-CRF
DeepLab-RNN
FCN:获取中间层特征
Hypercolumn:融合了中间层特征
SegNet,U-Net:skip-connections
背景
ResNet效果好,且有预训练模型,ResNet容易更改用于致密的分割分类任务。用致密预测层替代单标记预测层,输出每个像素的的分类置信度,如下图所示:
步长为2 ,所以每层分辨率降低,下采样层有两个影响:增加卷积层感受野,使得滤波器获得全局的用于分类的高质量信息;平衡滤波器数目和分辨率。通常最后一层特征图大小是输入图像的1/32。低分辨率的特征图损失了很多信息,特别是低层特征获取的细节信息。DeepLab采用了带孔的卷积解决这个问题,但计算量大:
RefineNet
RefineNet的结构可以如下图标识:
- 多路径改进
将预训练的ResNet分为4个块,使用包含4个RefineNet单元的4级级联结构,每个结构直接链接到ResNet块的输出以及前一个RefineNet块,RefineNet块可以接受不同ResNet块的输入,可以有很多不同的变形。
上图中,RefineNet-4只有一个输入,RefineNet-4的输出和ResNet block-3输入到RefineNet-3.RefineNet-3的目标是使用高分辨率的特征改善RefineNet-4输出的低分辨率特征。 - RefineNet结构及组成
RefineNet块的结构如下图所示:
包含了三个组成部分:
残差卷积单元
多尺度融合
链式残差池化
实验结果
1. 使用 Person-parts与其他方法的对比
2. 在CitySpace上的结果