论文地址:Context Encoding for Semantic Segmentation
这是CVPR2018上的一篇oral,来自商汤科技
CNNs are able to capture the informative representations with global receptive fields by stacking convolutional layers with non-linearities and downsampling. For conquering the problem of spatial resolution loss associated with downsampling, recent work uses Dilated/Atrous convolution strategy to produce dense predictions from pretrained networks [4,52]. However, this strategy also isolates the pixels from the global scene context, leading to misclassified pixels.
Context Encoding Module
使用一个Context Encoding Module来提取图片的context信息,也就是全局信息
模块如上图所示,就是先使用pre-trained的CNN来提取到图像的特征为C*H*W,c为channel数,hw为特征图size
然后对这个特征图进行一个encode成一个C*1*1的特征向量
encode过程如下:
对于c个channel的特征图,每个特征图size为H*W,然后x为H*W的一个特征点,N=H*W,也就是
K是codewords (visual centers)的个数,和
是两个需要学习的参数,分别为残差因子和缩放(平滑)因子
,其中
,
,其中
为BN和ReLU
最终每个channel暑促胡一个e,最后成为C*1*1的特征向量
K=0时相当于进行global average pooling
接下来对于encode得到的C*1*1的特征向量,分为两条路:
1、使用FC成为C*1*1的特征向量,也就是学习原本C*W*H特征图上每个channel的权重,这点应用了SENet中的思想,对于每个channel进行权重学习,然后再把这个权重乘到原本C*W*H的特征图上去
2、使用FC成为C*1*1的特征向量,这个是为了使用一个SEloss,也就是一个多增加的类别的判别器,用于让网络学习到context信息
Context Encoding Network (EncNet)
随后呢,根据上文提到的Context Encoding Module,这篇文章提出了一个自己的语义分割网络结构EncNet
网络的主体框架为使用了空洞卷积(atrous conv)的ResNet,在stage3和stege4阶段分别增加了两个SE-loss,在stage4上用了Seg-loss
最后的实验表明这种方法增加的计算量很少,但是能够有效提高准确率