daily paper系列1: ExFuse: Enhancing Feature Fusion for Semantic Segmentation

ExFuse框架通过在低层特征中引入更多语义信息和在高层特征中嵌入空间信息来改进语义分割。文章提出了层重排、语义监督和语义嵌入分支,以及显式信道分辨率嵌入和密集相邻预测,以提升分割质量。实验表明这些方法在GCN和ResNet等基线模型上有效。
摘要由CSDN通过智能技术生成

ExFuse: Enhancing Feature Fusion for Semantic Segmentation

https://arxiv.org/pdf/1804.03821.pdf
Face++ 出品
Q note 2018.4.19


摘要
  • 简单地融合高低层次特征并不是很有效率,这里提出将分割信息加入低层次特征,将空间信息引入高层次特征,能把分割质量提高4.0%.
Introduction
  • 现有的分割网络大都遵循FCN的想法,通过类编码器的思想,使用预训练模型提取特征,再解码器还原,Unet就将高低特征进行一定连接,达到不错的效果.
  • 低层特征包含很多点线等,往往过于嘈杂,与高层特征结合并不一定起作用,相反,如果低级特征包括更多的语义信息,例如,编码得到相对更清晰的语义边界,则融合变得容易,通过将高级特征映射到与边界对齐可以获得良好的分割结果.
  • 基于上面的思想,作者提出了ExFuse框架,主要是以下两个方面:
    1. 为了将更多的语义信息引入低级特征,作者提出了三种解决方案:层重排,语义监督和语义嵌入分支(layer rearrangement, semantic supervision and semantic embedding branch)
    2. 将更多的空间信息嵌入到高层特征中,作者提出了两种新方法:显式信道分辨率嵌入和密集相邻预测(explicit channel resolution embedding and densely adjacent prediction)。
  • Deeply supervised learning
  • Upsampling.
    上采样的方法主要有三种:
    1. 线性插值
    2. 转置卷积: 最早在FCN中提出
    3. 子像素卷积(sub-pixel conv),最早源自实时高清视频和图像任务
      Sub-pixel Upsampling
Approach
  • 这里的baseline采用的是Global Convolutional Network(GCN), 采用ResNet50和ResNeXt101作为backbone,分别在{128,64,32,16} {64,32,16} {32,16} {16}做特征融合,输入为512*512.
  • 下面的讨论基于以下共识,文中叫fact:更接近loss的层能提取更多的分割信息.
  • 在低层里加入语义信息
    1. layer rearrangement :在网络前期放更多的layers
    2. Semantic Supervision: 在低层就加入辅助监督,使低层也具备一定的语义信息,总训练loss就是每个分支的加权总和
    3. Semantic Embedding Branch (SEB): 先给公式:
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值