论文笔记(十一)-Understanding Convolution for Semantic Segmentation

论文地址:Understanding Convolution for Semantic Segmentation

摘要

  1. 在上采样中提出dense upsampling convolution (DUC)来产生双线性上采样中缺少的更详细的信息。
  2. 在编码阶段提出hybrid dilated convolution (HDC) framework,可以有效地扩大了网络的接收域(RF)以聚合全局信息,也减轻了由标准dilated convolution引起的“网格问题”。

方法
1.作者提出的称为密集上采样卷积(DUC)的方法比较容易实现,并且可以实现像素级的精度:作者不是试图立即覆盖全分辨率标签图,而是学习了一系列向上扩展的滤镜,以将缩小的特征图放大为所需大小的最终密集特征图。 DUC通过启用端到端训练自然适合FCN框架,并且它显着增加了Cityscapes数据集【M. Cordts, M. Omran, S. Ramos, T. Rehfeld, M. Enzweiler, R. Benenson, U. Franke, S. Roth, and B. Schiele. The cityscapes dataset for semantic urban scene understanding. In Proc. of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016.】上像素级语义分割的mIOU,特别是在相对较小的对象上。
DUC不是执行无法学习的双线性上采样,也不是使用去卷积网络(在卷积运算之前必须在解池步骤中填充零)上的反卷积网络,而是直接在特征图上应用卷积运算以获得密集的逐像素预测图。
DUC的关键思想是将整个标签图分成相等的d^2子部分,这些子部分的高度和宽度与传入的特征图相同。 也就是说,我们将整个标签图转换为具有多个通道的较小标签图。 这种转换使我们可以在输入特征图和输出标签图之间直接应用卷积运算,而无需在反卷积网络中插入额外的值(uppooling运算)。
DUC是可学习的,因此它能够捕获和恢复通常在双线性插值运算中缺少的详细信息。DUC的预测是在原始分辨率下执行的,因此可以进行像素级解码。 此外,DUC操作可以自然地集成到FCN框架中,并使整个编码和解码过程端到端可训练。

2.对于编码部分,提出simple hybrid dilation convolution (HDC) framework,通过设置不同的dilation rates来解决gridding problem,并将它们串联起来,串联方式与 ResNet中的“块”相似。此外,选择合适的速率可以有效增加接收场大小,并提高相对较大物体的精度。
产生gridding的基础卷积方法:dilated卷积用于通过替换max pooling或strided卷积层来保持FCN中特征图的高分辨率,同时保持相应层的接收场。替换strided层的方法是,stride如果是2,就改成1,然后接下来的层dilation rate都设置为2。此过程将迭代地应用于具有下采样操作的所有层,因此输出层中的要素图可以保持与输入层相同的分辨率。
相邻的几层算一组,比如3层用的rate是1,2,3。下一组里的3层重复用这些rate。组内的膨胀率不应具有公因子关系(例如2,4,8等),否则顶层的网格问题仍然存在。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值