这次介绍的是语义分割方向的另一篇-DeeplabV3,论文地址:https://arxiv.org/pdf/1706.05587.pdf,推荐在看完本文之后仔细阅读论文以及代码,可以更好理解。
论文中作者主要想解决/优化的语义分割方向的两个问题: 一是 feature map 的分辨率过低导致后续在恢复为原图分辨率时不够精确,二是对多尺度物体的检测表现不好。作者试图寻找一些方法来解决这两个问题,有些方法是之前已经提出的方法的改进。
空洞卷积
在上篇 FCN 的介绍中我们说到作者认为普通分类网络中的全连接层让目标的位置信息消失了,所以将全连接层换为了卷积层保留了位置信息;而本篇作者认为卷积和池化对原图的缩放让 feature map 失去了目标的精确位置信息,因此就有了有别于普通卷积的空洞卷积:
空洞卷积在 DeeplabV1 中就已经被提出,论文中将它称为 Atrous Convolution 或者 Dilated Convolution,原理是在卷积核中间插入0,可以达到在不增加计算量的情况下增大感受野(field-of-view)的效果。如上图所示,左图中标准卷积中的卷积核大小为 3x3,其感受野也为 3x3,在卷积核中间插入 0 之后变为右图空洞卷积,其中实际参与计算的卷积核大小仍为 3x3,而感受野已经扩大到了 5x5。这里空洞卷积的卷积核大小计算公式: kout &#