dcnn和定位的挑战
越深的层,不变性越强,感受野越大,越难瞄准物体轮廓。
dcnn和FC CRF
耦合dcnn的识别能力和全连接 CRF的细粒度定位能力。
input->dcnn->coarse score map->bi-linear interpolation->fc crf ->output
传统上,条件随机场(CRFs, conditional random fields)用来平滑分割噪声。
而现代dcnn产生的score map已经足够平滑。
因此,使用短程CRFs可能有害,因为我们的目标是恢复详细的局部结构,而不是进一步平滑。
为了克服短程CRFs的这些限制,deeplabv1提出dcnn和全连接(fully connected)CRF耦合的方案。
全连接CRF模型利用以下能量函数:
largeFOV版本的网络结构
1,deeplabv1的除了最后2个max_pool以外的max_pool,kernel_size,stride,padding分别是3,2,1,而vgg-16论文的是2,2,没有padding。
2,最后两个max_pool是3,1,1,这样保持feature map是28*28,是原图的1/8。
3,最后3个conv是空洞卷积,3,1,2,2,最后一个2是dilated rate,输出依旧是28*28。
4,全连接层卷积化,第一个FC在FCN中是7*7的核,个数2048,deeplabv1中3*3,个数1024。3,1,12,12,使用空洞卷积。
5,第二个FC是1,1,核个数也是1024,目的是增强非线性。
6,再加1*1的核改一下通道数,通道数为类别数。
7,上采样8倍得到原图大小。
为什么要largeFOV
在不影响mIOU下减少参数数量和提高训练速度。
Multi_Scale Prediction
融合多个特征层的输出。除了使用主分支外,还融合了来自原图和前四个Max_pool层的输出。源码中来自原图和前四个Max_pool层的路线没有使用空洞卷积,输出和主分支的一样都是28*28*num_classes,这样它们和主分支可以相加,相加后上采样8倍得到224*224*num_classes的输出,对应原图大小,每个像素都有它的类别。
Ref
SEMANTIC IMAGE SEGMENTATION WITH DEEP CONVOLUTIONAL NETS AND FULLY CONNECTED CRFS Liang-Chieh Chen