ExFuse- Enhancing Feature Fusion for Semantic Segmentation笔记

问题:论文称,简单的高低维特征融合效率比较低,因为语义层次和空间分辨率会有gap。

作者发现在低维特征引入语义信息,高维特征引入高分辨率信息(空间信息)对后边的融合很有效。

作者通过两个方面解决,高低维之间语义和分辨率的gap:1)给低维特征引入更多的语义信息,提出3个方法,layer rearrangement, semantic supervision and semantic embedding branch;2)给高维特征嵌入更多的空间信息,有2个方法,explicit channel resolution embedding and densely adjacent prediction。
本文关注的是“U-Net”特征融合问题。
这里写图片描述
上边是正常U-shape网络,下边是作者提出的模型。
基本网络架构:
这里写图片描述
一:给低维特征引入更多的语义信息:
基于一个事实:越接近loss,特征图会编码更多的语义信息【30】。
1.Layer Rearrangement
从res-2 到 res-5,原来ResNeXt 101为{3,4,23,3},现在改为{8,8,9,8}。这么改是为了使得低维特征更加接近监督,即在早期stages安排更多层而不是后期。
2.Semantic Supervision
给编码部分早期stages引入附加监督。为了在附加分支产生语义输出,低维特征被迫编码语义概念,这将有助于后边的特征融合。但是通过增加额外的监督,会导致分类精确度变差。所以本实验目的是提高低维特征的质量,而不是提高原有模型本身的表现。下图是Semantic Supervision模块。具体操作,在预训练backbone编码部分是,加入SS,当训练好之后,去掉这些SS,然后对剩下的进行微调。
这里写图片描述
3.Semantic Embedding Branch
这个过程涉及到的公式为:
这里写图片描述
第一项是正常的上采样,第二项是这里提到的SEB。如下图
这里写图片描述
提高结果0.7%。需要注意的是,不同特征组之间是互相乘的。
这种说法和方式能理解。

二、给高维特征嵌入更多的空间信息
1. Explicit Channel Resolution Embedding (ECRE)
作者本来在最底层使用反卷积+辅助监督,,目的是学习fine segmentation map,但是失败了。作者觉得是因为反卷积具有参数,使得这种embedding不明确。(不懂得是,最底层本来就具有高的语义信息,增加辅助监督目的也是增加语义信息,所以作者为什么进行这样的尝试?)
作者使用了另一种方法Sub-pixel Upsample【2,25】来代替原始的反卷积。由于这种上采样方式没有参数作用,所以额外监督能够明确的影响特征。具体细节如图5。
这里写图片描述
征图不能被4整除)
通过这种方式,提高0.5%。
2. Densely Adjacent Prediction(DAP)
原始网络解码过程中,每个点只负责对应点的语义信息。DPA可以使得预测相邻位置的结果。原理如图:
这里写图片描述
本实验k=3。所以最后需要产生189(21 × 3 × 3)个通道。通过这种方法,提高0.6%。
这种说法能理解,但是方式总感觉有点变扭。

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值