图像语义分割是一种通过为目标类别中的每个点分配基于其语义的标签来区分图像中不同类事物的技术。
FCN:通过对图像进行像素分类,解决语义分割问题。与经典的CNN卷积神经网络相比,FCN可以接受任意尺度的输入图像。源于对每个像素点进行分类,采用反卷积层对最后一个卷积层特征图进行上采样,尺寸与输入图像相同,对每一个像素产生一个预测,极大的保留输入图像的空间信息,最后在上采样的特征图上进行分类。
FCN将CNN中的全连接层换成卷积层,所以输出的是一个图,而不是一个概率。
PSPNET:金字塔池化融合了四种不同尺度下的特征,塔顶使用全局池化,以生成单个bin输出。金字塔将特征图分为不同的子区域,不同位置池化。每一层级的特征图大小都不相同,每个层级后使用1×1卷积层,将维度降低到原始维度的层级分之一。
然后对低维特征值进行上采样,通过双线性插值得到原始特征图大小相同的特征。最后将不同级别的特征连起来作为输出的全局特征。
Deeplab-V3:语义分割方法计算复杂度高,内存消耗大,难以在计算力有限的嵌入式平台部署。提取图像信息时,难以利用多尺度信息,可能导致详细信息的丢失,和损害分割的准确性。