Image Segmentation in Deep Learning
按分割目的划分
- 普通分割
将分属不同物体的像素区域分开,如前景与背景分割开,狗和猫的区域和背景分开 - 语义分割(semantic segmentation)
在普通分割的基础上,识别每块区域的类别(即语义) - 实例分割(instance segmentation)
在语义分割的基础上,区分同类个体,如分割出狗A和狗B
基本元素
- 全卷积Fully Convolutional Network (FCN)
对于一般的分类CNN网络,如VGG和Resnet,网络最后是全连接层,经过softmax后生成一维的类别概率信息。图像分割是像素级分类,需用FCN替换全连接,从而获得二维feature map,再在此基础上用softmax分类。 - 上采样Upsampling
Backbone网络最初是用于分类任务的,所以有downsampling,对应的输出尺寸会降低;upsampling的意义在于将小尺寸的高维度feature map恢复回去,以便做pixel-wise prediction,获得每个点的分类信息 - 多尺度特征融合
低层特征空间信息丰富,高层特征有语义信息,多尺度特征融合使分割结果更精细。低分辨率feature map上采样后与高分辨率feature map逐点相加,相加后的feature map继续上采样
- Encoder-Decoder式分割网络
- 基于空洞/膨胀(Atrous/Dilated)卷积的分割网络:DeepLab系列
- 基于特征增强的分割网络
- 实例分割
评价指标
- global accuracy
- mIoU (mean Intersection over Union)
- mean accuracy
- frequency weighted IoU