作者发现大核对分割于有重要作用。所以提出Global Convolutional Network。和使用residual-based boundary refinement处理边界。
Global Convolutional Network
分割包含两部分内容,定位,分类。论文称,这两块互相矛盾。1)对于分类任务,模型应该对变换不敏感(比如,移动,旋转,缩放);2)对于定位任务,模型应该对变换是敏感的,定位结果依赖于输入的位置。
对于分类器,最后的全连接层能够综合全局信息。但是现有的分割网络主要关注于定位,也就是说,每个像素点的分类没有考虑到全局信息,所以很难处理输入的不同变换,所以分类可能是次优的。作者通过了图3进行说明。
所以我们设计的网络必须满足下边的2点:1,必须是全卷积的,但是不能包含全连接层和全局池化层,全局池化将会导致位置信息的丢失。2,从分类的角度看,卷积的kernel应该尽可能的大。如果卷积核和特征图一样大(全局卷积),那么就能够利用全局信息了。
所以作者设计的网络包含1 × k + k × 1 和k × 1 + 1 × k卷积,这相当于在一个k×k区域进行densely connections。相对于k × k卷积,我们的计算复杂度和参数个数仅仅为O(2/k)。
对于不同的k,没有Boundary Refinement block,base为GCN部分使用1x1代替。
特性:1,比正常卷积参数较少;2,比3x3堆叠效果好;3,GCN对于目标的中间像素效果较好,为此还做了对比实验,如下。
结果和预想的一样。所以说,GCN主要提升的是目标内部区域的效果,对于物体边界效果一般。当然,还有一个实验是增加BF,和GCN相比,BF主要增加边界的效果。
但没看到论文提到BF设计原理。