目前语义分割的流行框架可以分为前端、后端。前端采用FCN定位不同类别的物体,后端采用RF(CRF、MRF)精确定位物体边界。也就是说,前端解决“是什么(what)”,后端解决“在哪里(where)”。
可以把语义分割网络分为两类:以FCN为代表的编解码器(encode-decode)网络;以Deeplab为代表的空洞卷积(dilate convolution)网络。[参考]
A.FCN(2014,Long)
去掉全连接层的理论依据:
-
全连接层参数矩阵的大小限制了输入数据的维度(对图像来说,输入必须是固定分辨率大小)。
-
全连接层的密集连接方式使它包含了网络的大部分参数。
-
全连接层和卷积层没有本质区别。
全卷积网络。Matan(1991)第一次把卷积网络扩展成能接受任意输入,他们扩展LeNet用于识别数字串。全卷积计算被诸如滑动窗口检测、语义分割、Eigen的图像复原等广泛采用。用全卷积训练的却很少,在Tompson的人体位姿估计中效果很好,但作者并没有解释、分析这种方法。
B.DeepLab(2015,Chen)
C.SegNet(2015,2017,Badrinarayanan)
D.类平衡自训练的无监督域适应语义分割(Zou,2018)
无监督域适应(Unsupervised Domain Adaptation)是迁移学习的一种。
E.BiSeNet(2018,Yu,旷视科技)
参考
[1] 图像语义分割之FCN和CRF,知乎