[深度学习从入门到女装]Context Encoding for Semantic Segmentation

论文地址:Context Encoding for Semantic Segmentation

 

这是CVPR2018上的一篇oral,来自商汤科技

CNNs are able to capture the informative representations with global receptive fields by stacking convolutional layers with non-linearities and downsampling. For conquering the problem of spatial resolution loss associated with downsampling, recent work uses Dilated/Atrous convolution strategy to produce dense predictions from pretrained networks [4,52]. However, this strategy also isolates the pixels from the global scene context, leading to misclassified pixels.

Context Encoding Module

使用一个Context Encoding Module来提取图片的context信息,也就是全局信息

模块如上图所示,就是先使用pre-trained的CNN来提取到图像的特征为C*H*W,c为channel数,hw为特征图size

然后对这个特征图进行一个encode成一个C*1*1的特征向量

encode过程如下:

对于c个channel的特征图,每个特征图size为H*W,然后x为H*W的一个特征点,N=H*W,也就是

K是codewords (visual centers)的个数,是两个需要学习的参数,分别为残差因子和缩放(平滑)因子

,其中

,其中为BN和ReLU

最终每个channel暑促胡一个e,最后成为C*1*1的特征向量

K=0时相当于进行global average pooling

接下来对于encode得到的C*1*1的特征向量,分为两条路:

1、使用FC成为C*1*1的特征向量,也就是学习原本C*W*H特征图上每个channel的权重,这点应用了SENet中的思想,对于每个channel进行权重学习,然后再把这个权重乘到原本C*W*H的特征图上去

2、使用FC成为C*1*1的特征向量,这个是为了使用一个SEloss,也就是一个多增加的类别的判别器,用于让网络学习到context信息

Context Encoding Network (EncNet)

随后呢,根据上文提到的Context Encoding Module,这篇文章提出了一个自己的语义分割网络结构EncNet

网络的主体框架为使用了空洞卷积(atrous conv)的ResNet,在stage3和stege4阶段分别增加了两个SE-loss,在stage4上用了Seg-loss

 

 

最后的实验表明这种方法增加的计算量很少,但是能够有效提高准确率

 

 

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值