语义分割–FCN(2/3)–模型结构
论文下载
下载链接:Fully Convolutional Networks for Semantic Segmentation
模型结构
模型简介
FCN是在CNN的基础上进行修改(CNN网络比如AlexNet,VGGNet,GoogLeNet,ResNet…有机会再做补充,可自行查阅资料)。
FCN采用的主干网络为VGG16
假设输入的image大小为 352 ∗ 480 ∗ 3 ( H ∗ W ∗ C ) 352*480*3(H*W*C) 352∗480∗3(H∗W∗C),经过conv1为: 352 ∗ 480 ∗ 64 352*480*64 352∗480∗64,经过pool1(最大池化)为: 176 ∗ 240 ∗ 128 176*240*128 176∗240∗128,经过conv2为: 352 ∗ 480 ∗ 128 352*480*128 352∗480∗128,经过pool2为: 88 ∗ 120 ∗ 256 88*120*256 88∗120∗256…以此类推,可以把convx + poolx (x=1,2,3…5)看做为一个整体,维度变化(3->128->256->512->512),经过pool5特征图大小为:1115512,con6-7主要目的是进行通道数的改变,将 11 ∗ 15 ∗ 512 − > 11 ∗ 15 ∗ n u m c l a s s e s 11*15*512 -> 11*15*num_classes 11∗15∗512−>11∗15∗numclasses(数据集最后的类别数)
FCN-32s:将1115num_classes的特征图直接上采样32倍变为352480num_classes;
FCN-16s:将1115num_classes的特征图直接上采样2倍变为2230num_classes,变换通道与下采样pool4特征图进行求和,求和结果上采样为:352480num_classes;
FCN-8s:将1115num_classes的特征图直接上采样4倍变为4460num_classes,变换通道数与pool4(上采样2倍),pool3求和,求和结果上采样为:352480num_classes;
为什么到FCN-8s,没有FCN-4s…,因为FCN-4s…结果没有FCN-8s好呗