Understanding Convolution for Semantic Segmentation读书笔记

最新推荐文章于 2023-07-16 16:56:17 发布

waqiqi

最新推荐文章于 2023-07-16 16:56:17 发布

阅读量1.5k

点赞数 2

分类专栏：语义分割

本文链接：https://blog.csdn.net/u010213183/article/details/72283933

版权

语义分割专栏收录该内容

11 篇文章 2 订阅

订阅专栏

本文主要是对上采样和dilated convolution进行了修改，优点在于：1.扩大网络的感受野，以聚集更多的全局信息，2.解决由标准dilated convolution所引起的"gridding效应"，最后在cityscapes达到很好的效果。

DUC:不同于传统的一次性回复全分辨率的label Map，我们通过学习一系列放大滤波器将缩小的特征图放大到所需大小的密集特征图。DUC能够自适应FCN框架，进行端到端的训练，在cityscapes上得到较高的mIOU,尤其对相对较小的物体上效果较好。

dilated convolution:主要的思想是在卷积核的像素之间插入“holes（也就是0）”，来增加图像的分辨率以及提高网络的感受野，从而可以在deep CNNs中提取密集特征，消除下采样的使用（max-pooling或者是strided convolution）。

假设原图大小为H×W，经过ResNet后维度变为h×w×c（其中h=H/r，w=W/r），通过卷积后输出feature map维度为h×w×(r^2×L)，其中L是语义分割的类别数。最后通过reshape到H×W×L尺寸就可以了。DUC的核心思想就是将整个label map分成若干个和输入特征图（heatmap）大小相等的部分。所有的子部分被叠加r^2次就可以产生整个label map了。这种变化允许我们直接在输入特征图和输出标签图之间进行卷积操作，而无需像反卷积层一样插入额外的值（“unpooling”操作）。”
此外，DUC网络可以融入到FCN框架中，可以使整个编码和解码过程变成端到端的训练。