语义分割与MMSegmentation
语义分割任务介绍
- 将图像按照物体的类别分割成不同的区域
- 等价于对每个像素进行分类
子任务
- 语义分割:仅考虑像素的类别,不分割同一类的不同实体
- 实例分割:分割不同的实体,仅考虑前景物体
- 全景分割:背景仅考虑类别,前景需要区分实体
基本思路
按颜色分割
- 物体内部颜色相近,物体交界颜色变化
- 问题:不同物体颜色可能相近,物体内也会包含多种颜色
逐像素分类
- 可以充分利用已有的图像分类模型
- 问题:效率低下,重叠区域重复计算卷积
全卷积网络FCN
- FC层卷积化
- 对预测的分割图升采样,恢复原图分辨率
- 双线性插值(可由卷积实现)
- 转置卷积:可学习的升采样层
- 高层特征经过多次降采样,细节丢失严重
- 需结合低层次和高层次特征图,分别产生类别预测,升采样到原图大小,再平均得到最终结果
U-Net
- 逐级融合高低层次特征
上下文信息
- 即图像周围的内容
- 增加感受野更大的网络分支,将上下文信息导入局部预测中
PSPNet
- 对特征图进行不同尺度的池化,得到不同尺度的上下文特征
- 上下文特征经过通道压缩和空间上采样之后拼接回原特征图,同时包含局部和上下文特征
- 基于融合的特征产生预测图
DeepLab
- 提出空洞卷积
- 将池化层和卷积中的步长去掉,可以减少下采样的次数,特征图就会变大,需要对应增大卷积核,以维持相同的感受野,但会增加大量参数
- 使用空洞卷积(Dilated Convolution/Atrous Convolution),在不增加参数的情况下增大感受野
- 去除分类模型中的后半部分的下采样层
- 后续的卷积层改为不同尺度的膨胀卷积,并且逐步增加rate来维持原网络的感受野
- DeepLab v3+ 将“空间金字塔池化捕捉上下文特征”和“Encoder-Decoder结构”两种思路融合
评估指标
- mAcc、mIoU、mDice