参考论文:Multi-Scale Context Aggregation by Dilated Convolutions
图像语义分割为,将图像像素点进行分类,例如FCN(全卷积网络),首先将输入图像输入CNN提取图像特征,在输入pooling层,以缩小尺寸并提高感受野。但由于是对图像的每个像素点进行分类,即输出与输入大小相同,因此pooling之后需要对其进行upsampling,以扩大图像尺寸。将图像由小变大的过程势必导致一些信息的丢失,那么就会想到是否可以不进行pooling操作,也可以增大感受野呢。本文提出的dilated convolution正是为了解决这个问题。
dilated convolution
另
F:Z2−>R
为一个离散函数,k为大小为
(2r+1)2
的离散滤波器,则离散卷积操作*定义如下:
定义l为dilation 因子,*l操作定义如下:
l操作即为一个dilated convolution,也称为l-dilated convolution。我们熟悉的离散卷积也就是1-dilated convolution.
定义
F0,F1,...,Fn:Z2−>R
为离散函数,
k0,k1,...,kn−2
为
3×3
的离散滤波器,dilated convolution满足指数增长:
也就是说每个
Fi+1
是由
Fi
经过
2i
dilated convolution得到的。每个
Fi+1
的感受野为
(2i+2−1)×(2i+2−1)
。
图中,
F1
是由
F0
经1-dilated convolution得到的,
F1
的每个元素感受野为
3×3
.
F2
是由
F1
经2-dilated convolution得到的,
F2
的每个元素感受野为
7×7
.
F3
是由
F2
经4-dilated onvolution得到的,
F3
的每个元素感受野为
15×15
.