算法
提出SegNet网络,其核心的训练引擎包含一个encoder网络,和一个对称的decoder网络,即编码器-解码器结构,并跟随一个用于pixel-wise的分类层
文章亮点
decoder进行上采样的方式。直接利用与之对应的encoder阶段中,在经过最大池化时保留的polling index进行非线性上采样
比较结果
通过比较SegNet与FCN、DeepLab-LargerFOV、DeconvNet结构,统筹内存与准确率,SegNet实现了良好的分割效果
模型评估
在Camvid和SUN RGB-D indoor数据集中均有测试。
引言
1、近期的许多语义分割研究采用dnn,但是效果比较粗糙,主要原因是max-pooling和sub-smaple降低了feature map的分辨率。
2、道路场景理解需要算法具有appearance外形、shape形状和理解空间关系(上下文)的能力。由于是道路场景,因此需要网络能够产生光滑的分割,网络必须有能力勾画出小尺寸的物体。因此在提取图片特征过程中保留边界信息很重要。
3、使用max-pooling indices的优点:提高边界勾画;减少了进行端到端训练的参数;这种上采样形式可以被集成到任何encoder-decoder框架的网络上。
4、Pascal VOC数据集中有少数foreground与backgroud有明显区分,这让一些投机者可以使用类似于边缘检测来刷分数。因此本文使用Camvid,Sun,RGBD这两个数据集,而不是用Pascal VOC数据集。
相关工作
1、介绍FCN时代的深度学习分割方法
2、介绍FCN
(1)FCN框架中的每一个解码器都是对其输入的特征图进行上采样,并将与相应的编码器特征图组合,以产生下一个解码器的输入。
(2)该网络的整体大小使其难以在相关任务上端到端的进行训练(即原始的FCN32s效果很差)。因此,作者使用了阶段性的训练过程。解码器网络中的每个解码器逐步添加到预训练好的网络中。
(3)网络生长知道没有进一步的性能提高,这种增长在三个解码器之后停止(FCN8s)。
3、FCN弊端
(1)忽略了高分辨率的特征图,会导致边缘信息的丢失。
(2)FCN编码器网络中有大量参数,但是解码器网络非常小,数据冗余度上不对称。
算法架构(重点)
#蓝色表示卷积块(卷积、归一化、激活)
#绿色代表池化块(池化)
#红色代表上采样块(上采样)
#黄色代表全连接块(softmax)