语义分割基本思路
语义分割是对图片逐像素分类。
应用:医疗影像分析,自动驾驶,遥感影像解译,视频会议
语义分割仅考虑像素的类别
最早期方法:按照颜色区分
逐像素分类-滑窗
复用卷积计算,可以降低计算量
全卷积网络FCN就是上面这种优化方法,把全连接层全部换成了卷积,这样可以实现任意尺寸的输入
预测图的升采样
转置卷积的卷积核可以写成转置矩阵的形式。它能把小图变成大图。
基于多层级的特征上采样:
浅层的网络细节丰富,语义信息贫乏,深层则相反:
UNet就是把这个思想发挥到了极致:
上下文:图块周围的信息
滑动窗口丢失了上下文信息
如果滑块的感受野足够大,就可以获取一些上下文信息
PSPNet2016就用了多尺度池化得到不同尺度的特征图
DeepLab系列:
有一系列的改进手段:
空洞卷积:在不增加参数的情况下增大感受野;
CRF条件随机场:
使分割结果从模糊变清晰 是一种概率模型,鼓励仅在原图颜色边界处产生类别变化,内部不发生变化
上面这种图可以用PPT画
语义分割的经典模型和算法:
评估方法
IOU