【图像分割论文阅读】The One Hundred Layers Tiramisu: Fully Convolutional DenseNets for Semantic Segmentation


Tiramisu


本文出自加拿大蒙特利尔学习算法研究院、蒙特尔理工学院、蒙特利尔伊玛吉亚公司、巴塞罗那计算机视觉中心联合出品。注意到Bengio也在其中。文章最终发表于CVPR2017.[Tiramisu译作提拉米苏]
论文地址:The One Hundred Layers Tiramisu: Fully Convolutional DenseNets for Semantic Segmentation


背景

从某种意义上来说,本文的结构是经典的Encoder-Decoder模型,仿照的是U-Net的构造,主要贡献在于结合当时分类效果最好的模型DenseNet,经过调整,将DenseNet改造并成功用于编解码过程FC-。最后的实验是在CamVid、Gatech两个数据集上完成的。最后,在上述两个数据机上的表现达到SOTA,但是模型大小至多为那些SOTA模型的1/10.(注意这里作者实验中测试了三种深度的模型。)

模型结构

如下图所示文章中的模型结构与U-Net如出一辙,微小差异在于上采样过程upsample path的设计,包括恢复图像分辨率所采样方法、以及连接方式有差异。
下图左侧为卷积降采样过程,此间产生特征,右侧代表Upsample path用于恢复图像分辨率以获取更多细节信息。中间的虚线代表skip connection.文章主要是设计扩展Dense-Net用以替代U-Net中的一般卷积,由图中绿色部分标识。另外一个细微不同在于,Upsamole path中的上采样方式采用的是transposed convolution,也就是反卷积Deconv

architecture
其中Dense-Net Block的结构如下:

DB
Dense-Net对于输入进行如上图所示的操作,经过四个3*3的卷积,完整说来每一个layer包含BN+ReLU+CONV+Dropout四个部分。每个卷积产生大小为k的特征图,经过这个block会产生4k个特征图。

这一过程的的特点在于,由于结构中skip connection的存在,使得输出不仅仅包含非线性映射,还包括一个恒等变换:
x ℓ = H ℓ ( x ℓ − 1 ) + x ℓ − 1 x_{\ell}=H_{\ell}\left(x_{\ell-1}\right)+x_{\ell-1} x=H(x1)+x1
其中 H H H代表非线性变换。
这样堆叠的结果是,在 l l l层的变化为 x ℓ = H ℓ ( [ x ℓ − 1 , x ℓ − 2 , … , x 0 ] ) x_{\ell}=H_{\ell}\left(\left[x_{\ell-1}, x_{\ell-2}, \ldots, x_{0}\right]\right) x=H([x1,x2,,x0])


文中的上采样、降采样的具体形式如下图:

three

最后作者采用的模型结构为:architecture


实验

实验的评价指标为IoU,以及全局准确度。在CamVid数据集的表现如下图。可以看出,本文使用的FC-Dense Net模型在不使用ImageNer数据预训练的前提下,取得的全局准确率高达91.5%,而模型的的参数仅仅为此前SOTA的十分之一。作者在文中提到,可以在其他数据上预训练可能会得到更好的结果。以及利用均值场推理进行后处理也能提升性能。
result


最后参数量的减少很大程度上是因为采用的基础模型为Dense-Net,特征图共享以及skip connection是模型参数量减少的主要原因,并不是作者在upsample path中有什么别出心裁的设计。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值