文章目录
1 摘要
随着CNN的不断发展,涌现了很多深度较深的CNN如ResNet系列,它们非常适合用于完成稠密分割任务,如语义分割。但是由于CNN需要反复地进行下采样,这样导致了图像分辨率不断地降低,容易丢失了图像的一些空间信息,这样对于一些高分辨率的图像就非常不友好了。针对这个问题,作者提出一种RefineNet,引入了残差卷积模块(Residual Convolution Unit)、多分辨率融合模块(Multi-Resolution Fusion)和串联残差池化模块(Chained Residual Pooling)等结构,非常有效地对空间分辨率进行恢复,在7个数据集中均达到SOTA。
2 亮点
在当时,DeepLab是表现最好的网络,但是作者指出有两点缺陷:
① 在高分辨率图像中,存在高维特征,会使得DeepLab消耗大量计算资源。
② DeepLab使用空洞卷积虽然能够获得更大的感受野,但是这样会使得高分辨率图像的一些空间信息丢失,使图像变得粗糙。作者提出的RefineNet主要通过使用三大模块去避免这些问题。
2.1 残差卷积模块(RCU)
作者提出的RCU模块参考了ResNet的残差块,在模块内分成两条线路,如下图:
主干线为图像直接的输入,而支线的图像先经过ReLU、3x3卷积、ReLu、3x3卷积,再与主干线路进行特征融合叠加,残差卷积部分可以理解为对特征图进行信息的补充,使得图像信息更加丰富。
2.2 多分辨率融合模块(MRF)
图像通过残差卷积模块以后便要进入MRF模块,MRF模块主要是对不同尺度的图像进行特征提取和上采样到同样的分辨率,最后进行融合,如下图:
不同尺度的图像都进入对应的通道进行3x3卷积,再进行一个双线性插值法的上采样,不同通道的图像最终都上采样成同一分辨率的图像,最终进行融合叠加,将结果送往下一层。