简介
语义分割:给图像的每个像素点标注类别。通常认为这个类别与邻近像素类别有关,同时也和这个像素点归属的整体类别有关。利用图像分类的网络结构,可以利用不同层次的特征向量来满足判定需求。现有算法的主要区别是如何提高这些向量的分辨率,以及如何组合这些向量。
几种结构
全卷积网络FCN:上采样提高分割精度,不同特征向量相加。[3]
UNET:拼接特征向量;编码-解码结构;采用弹性形变的方式,进行数据增广;用边界加权的损失函数分离接触的细胞。[4]
SegNet:记录池化的位置,反池化时恢复。[3]
PSPNet:多尺度池化特征向量,上采样后拼接[3]
Deeplab:池化跨度为1,然后接带孔卷积。
ICNet:多分辨图像输入,综合不同网络生成结果。
实验设计
测试平台
采用[1]的代码,去掉one_hot,把损失函数改成交叉熵。
在验证过程引入pixel accuray和mIOU,代码见[2]
用颜色代码替换标签的类别代码,这样visdom可以显示多类别标签
数据集
[1]自带数据集Bag,二分类,图像800800,代码中转换到160160。
这个数据集很容易收敛,可以忽略优化器的影响,用来估计网络结构的性能上限。
CamVid,代码见[2],从视频中截取的,图像很相似。图像尺寸960*720。
PASCAL VOC 2007/2012,代码参照[3],图像差