论文阅读：MULTI-SCALE CONTEXT AGGREGATION BY DILATED CONVOLUTIONS

最新推荐文章于 2024-03-02 09:56:40 发布

取名太麻烦了

最新推荐文章于 2024-03-02 09:56:40 发布

阅读量1.1k

点赞数 5

本文链接：https://blog.csdn.net/dovakejin/article/details/112652083

版权

文章目录

前言
一、为什么要提出膨胀卷积
二、膨胀卷积原理
三、多尺度上下文聚合
四、Front-end
五、实验部分
- 训练front-end
- 对两种context module进行评估
总结

前言

之前看过一些论文里面都有提到dilated convolution，看了一下这篇论文，顺便记录一下。下面将dilated convolution直接翻译为膨胀卷积。

一、为什么要提出膨胀卷积

在图像分割领域，图像分割要求在全分辨率上进行操作。
研究者通过实验发现可以将训练好的图像分类模型迁移到图像分割上，这种方法得到的结果性能超过state of art（2015）。
但是这样做存在一个问题，那就是图像分类是一个对图像进行下采样的过程，在这个过程中图像的尺寸会缩小。解决的方法一是先下采样，后上采样恢复分辨率。但是作者认为是没有必要这样做的，因此提出了膨胀卷积。

二、膨胀卷积原理

在这里插入图片描述
论文中直接给出了两个公式，好家伙，直接给我整懵了。其实换一种写法可能好理解一点：

其中F是feature map，p是feature map上的一个点，k为（2r+1)x(2r+1)的卷积核
(Fk)（p）表示feature map和卷积核k卷积运算过后点p处的值。
式1表示原始的卷积运算，式2表示膨胀卷积运算，L表示尺度因子。从式2可以看出其实膨胀卷积就是在运算时不再是用一个卷积和与被这个卷积核覆盖的区域做卷积运算，而是按照比例L在水平和垂直方向上选取feature map上的点进行卷积运算。
这样做的好处是可以以指数增长扩大感受野。
假设现在有一个feature map F₀ ，对F₀进行尺寸为3x3，膨胀因子为1的卷积，得到图（a）中的F₁。对F₁进行尺寸为3x3，膨胀因子为2的卷积，得到图（b）中的F₂ 。这时式2中的求和部分变为F(2u+p,2v+p)k(u,v)，将r=1带入式2，整个式2为(F2k)（p）=
F(-2 + p，-2 + p)k(-1,-1) + F(-2 + p，0 + p)k(-1,0) + F(-2 + p，2 + p)k(-1,1) +
F(0 + p，-2 + p)k(0,-1) + F(0 + p，0 + p)k(0,0) + F(0 + p，2 + p)k(0,1) +
F(2 + p，-2 + p)k(1,-1) + F(2 + p，0 + p)k(1,0) + F(2 + p，2 + p)k(1,1)
同样的，可以写出图（c）中F₃的计算式。
现在来观察感受野，假设我们现在要计算用蓝色圈标记位置处点p的感受野，图（a）中感受野为3，这没什么说的。图2中的感受野为7，从图（b）中可以看到参与点p处值得计算得位置都用红色点标记了（其实是对应了图（a）中相应位置得点），因为每一个参与运算的点的感受野为3，可以看到所有这些点的感受野覆盖了7x7大小的区域，所以得到感受野为7x7 。
图（c）中的感受野同理。
如图：
在这里插入图片描述

三、多尺度上下文聚合

为了聚合多尺度上下文信息，提出了一个context module。该模型以C通道的feature maps作为输入，C通道的feature maps作为输出，输入输出分辨率相同。
在这里插入图片描述
context module依次由8层膨胀卷积（膨胀因子为1时退化为普通卷积）组成，如下

truncation表示该层卷积后面是否使用了ReLU，即
max(, 0)，Dilation表示膨胀因子，最后一个输出层为1x1的卷积，输出的通道数为C。

四、Front-end

作者将VGG-16进行修改，使得修改后的模型可以适应到图像分割。具体是将池化层移除，将卷积移除的池化层（前？）后的卷积改为膨胀因子为2的膨胀卷积。
下图是论文中的front-end和其他图像分割方法在Pascal VOC 2012数据集上（训练和测试）比较的结果。
在这里插入图片描述

五、实验部分

训练front-end

作者将训练分为两个部分。第一个部分是front-end在pascal voc2012和coco上进行预训练，第二个部分是front-end只在pascal voc2012上进行训练（fine-tuning）。训练好的front-end在voc 2012 validation和test数据集上分别取得了69.8%和71.3%的mean IOU（对图像分割的指标不熟悉）。注意此时没有把context module加上。

对两种context module进行评估

这里的两种context module指第三节中的两种膨胀卷积（输出通道数不一样）。
在这里插入图片描述
这段话因该是指在联合训练front-end和context module时更新front-end的参数和不更新front-end的参数取得的效果是差不多的。
最后得到的结果如图：

总结

个人理解能力有限，欢迎批评指正。^ - ^

取名太麻烦了

关注

5
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
论文阅读：MULTI-SCALE CONTEXT AGGREGATION BY DILATED CONVOLUTIONS

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、为什么要提出膨胀卷积二、膨胀卷积原理三、多尺度上下文聚合四、Front-end五、实验部分训练front-end对两种context module进行评估总结前言之前看过一些论文里面都有提到dilated convolution，看了一下这篇论文，顺便记录一下。下面将dilated convolution直接翻译为膨胀卷积。一、为什么要提出膨胀卷积在图像分割领域，图像分割要求在全分辨率上进行操作。研究者通过实验发
复制链接

扫一扫