Fully Convolutional Networks for Semantic Segmentation
(用于语义分割的 FCN 全卷积网络)
简介
FCN是一篇发表在2015 CVPR上的一篇论文,首个端到端的针对像素级预测的全卷积网络,是图像语义分割的开山之作。
一、创新点
- 将分类网络换成全卷积网络,可以接受任意图像大小
- 使用反卷积上采样恢复到原图大小,实现点对点的像素级预测
- 使用“skip”结构,结合了网络前端精细的表面的信息和网络后端粗糙的深层的语义信息,使分割更加精确。
总结
- 论文在实验中精度上达到了最优(PASCAL VOC2012,NYUDv2, 和SIFT Flow)
- PASCAL VOC2012在上提升了20%达到了 62.2% mean IU
- FPS 达到 5.7张/s,推理时间175ms( PASCAL VOC)离30还远
- 进行了8组实验
- 提出了端到端,点对点像素级别预测的全卷积网络
- 提出“skip”结构,连接深层语义和浅层精细信息
二、论文链接
原文链接
[1411.4038] Fully Convolutional Networks for Semantic Segmentation (arxiv.org)
代码链接
论文投稿期刊
相关论文
三、论文评价
- 创新:论文是语义分割的开山之作,是之后网络的奠基石。
- 文章:论文对问题逐一分析,描述了传统的方法,说明论文采用的方法能达到传统方法的同等效果,同时显示出论文方法的简单,且效果效率还优于之前的方法。(说明自己的方法好)
四、模型
- 将分类网络后的全连接层去掉,接上1*1核大小,通道为分类数的卷积层,然后进行反卷积到与输入一样的尺寸,进行预测
- 为了精准的预测,将浅层更精细的层也结合起来,有了FCN-32s、FCN-16s和FCN-8s的3个网络,FCN-8s效果最好(FCN-4s之后效果就瓶颈了)。
- 在训练的时候,采用逐阶段训练方式,就是先用原来分类网络预权重训练FCN-32s,然后用它的权重初始化FCN-16s在训练,如此类推。
五、实验
数据集
- PASCAL VOC 2011 and 2012 (21 类)
- NYUDv2(RGB-D dataset 795 train 654 test 40类 )
- SIFT Flow(2,688train 200test,33类)
- PASCAL-Context( 400 class,论文pick频率最高的59个类)
具体实验
实验1(分类网络的精度比较)
实验2(skip FCNs的精度比较)
实验3(whole image和sample patch 效果和收敛速度比较)
实验4(PASCAL VOC上不同模型精度、时间比较)
实验5(NYUDv2上的不同模型精度比较)
实验6 (SIFT Flow 上不同模型精度比较)
实验7(scale 对mean IU评价指标的影响)
factor 对图像scale下采样的因子