【paper reading】Semantic Flow for Fast and Accurate Scene Parsing


在这里插入图片描述

论文地址

代码地址

1 Introduction and Related Work

语义分割两个重要的因素是(1)细节信息(2)强语义信息。而这两个因素普通情况下就像鱼与熊掌不可兼得,因为随着下采样的次数越多,特征的语义信息会更强烈,那么细节信息就会丢失。因此,如何平衡这两者之间的关系,使得这两个因素尽可能的达到最优是语义分割任务中的一个重要的话题。

解决这个问题的一个办法是直接得到多尺度特征,其中可以使用空洞卷积。因为利用空洞卷积可以使得特征分辨率不会下降很多,同时可以保证特征的感受野较大,能够覆盖到相关的区域。这种做法由于不会下采样很多次,会使得特征图的分辨率较大,当输入是 1024 × 2048 1024\times2048 1024×2048时,其计算量会很大,最终的推理速度慢。还有使用Pyramid Pooling Module的PSPNet也可以得到多尺度的特征,同样计算量较大。

另一个不需要保持较大的分辨率的做法就是使用多层特征融合的方式,类似FPN。通过将深层的具有强烈语义相关的特征图传递到浅层中,使得最终的特征图同时具有丰富的语义信息和细节信息。作者认为这种方式并没有将深层的语义信息很好的传递到浅层。

因此,这篇文章为了使得深层的语义信息更有效的传递到浅层,提出了一种语义流(Semantic Flow)的模块来辅助不同的层的特征之间的融合。作者认为之间的方式没有很好的进行特征之间的传递是因为不同的层的特征对不齐(misalignment)。因为在不同层之间进行特征融合的时候,由于分辨率不同,需要进行上采样操作,同时,在多次的下采样和残差连接的时候都会使得不同层的特征之间对不齐。

这篇文章的语义流的目的就是使得特征之间能够尽量对齐的。其想法来自于光流(Optical Flow),这是用于分析连续图像或者视频帧的动作,作者将不同层的特征看作是不同的视频帧,由于它们之间没有很好的对齐,所以看作是不同层发生的移动,通过光流的方式来得到这种移动,进而能够对未对齐的特征进行一定的修复使得它们能够对齐。

2 Method

2.1 Network Architectures

  • 3
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值