预备知识:
感受野定义:卷积神经网络每一层输出的特征图(feature map)上的像素点在原始图像上映射的区域大小,如下图所示。
- 空洞卷积背景:起源于图像分割网络。
1.1 传统的做法:图像输入到CNN(典型的网络比如FCN[3])中,FCN先像传统的CNN那样对图像做卷积再pooling,降低图像尺寸的同时增大感受野,但是由于图像分割预测是pixel-wise的输出,所以要将pooling后较小的图像尺寸upsampling到原始的图像尺寸进行预测,之前的pooling操作使得每个pixel预测都能看到较大感受野信息。
1.2 图像分割FCN的关键:一个是pooling减小图像尺寸增大感受野,另一个是upsampling扩大图像尺寸。
1.3 传统做法的弊端:在先减小再增大尺寸的过程中,肯定有一些信息损失掉了。那么能不能设计一种新的操作,不通过pooling也能有较大的感受野看到更多的信息呢?答案就是dilated conv&#x