一般来说,根据卷积层处于深度神经网络的不同位置,我们可以将卷积层大概分为深层网络层和浅层网络层。ResNet的提出让深度学习模型的深度大大提升,由于网络层次结构的不同,CNN可以捕捉到图像的的高级,中级和低级的语义特征,并且可以通过池化层将信息进行压缩。
接下来回归正题, 我们来理解一下深层卷积和浅层卷积所提取的特征的区别:
1. 浅层卷积层:由于浅层卷积层所提取的特征和输入层比较近,它包含更多的像素点信息,一些细粒度的信息:如图像的颜色,纹理,边缘等信息;由于浅层网络的感受野较小,感受野重叠的区域也比较小,所以可以保证网络捕捉到更多的图像细节;它的分辨率更高,包含更多位置和细节信息,但是噪声更多。
2.深层卷积层:深层卷积提取到的特征经过了非常多的卷积操作,它距离输出层更近,包含更多粗粒度和抽象的语义信息;它的感受野增加,图像信息进行了压缩,获取的是图像整体性的信息;它具有更像的语义信息,但是分辨率较低,对图像细节的感知能力差。
由于网络深度的不断增加,随着网络深度的上升,一些浅层卷积层学到的语义信息可能会被稀释或者丢失,这些信息在语义分割中尤为重要。为了找回不同网络层的语义特征,有很多模型提出了特征融合的方法,最经典的就是U-Net的skip connection,通过U型结构,使用concat连接不同层的语义特征。此外还有add,直接相加。