【paper reading】Semantic Flow for Fast and Accurate Scene Parsing

最新推荐文章于 2023-02-02 15:18:25 发布

请痛捶我

最新推荐文章于 2023-02-02 15:18:25 发布

阅读量1.3k

点赞数 3

分类专栏：论文笔记文章标签：深度学习算法人工智能

本文链接：https://blog.csdn.net/wd18508423052/article/details/108562966

版权

本文提出了一种名为语义流（Semantic Flow）的模块，旨在解决深度学习语义分割任务中多层特征融合的问题。通过借鉴光流的概念，该方法旨在修复不同层特征间的对齐问题，提高特征融合效率，从而实现更精确的场景解析。实验在Cityscapes数据集上的结果证明了方法的有效性。

摘要由CSDN通过智能技术生成

文章目录

1 Introduction and Related Work
2 Method
- 2.1 Network Architectures
- 2.2 Flow Alignment Module(FAM)
3 Experiments
- 3.1 on Cityscapes
4 Conclusion

论文地址

代码地址

1 Introduction and Related Work

语义分割两个重要的因素是（1）细节信息（2）强语义信息。而这两个因素普通情况下就像鱼与熊掌不可兼得，因为随着下采样的次数越多，特征的语义信息会更强烈，那么细节信息就会丢失。因此，如何平衡这两者之间的关系，使得这两个因素尽可能的达到最优是语义分割任务中的一个重要的话题。

解决这个问题的一个办法是直接得到多尺度特征，其中可以使用空洞卷积。因为利用空洞卷积可以使得特征分辨率不会下降很多，同时可以保证特征的感受野较大，能够覆盖到相关的区域。这种做法由于不会下采样很多次，会使得特征图的分辨率较大，当输入是 $1024\times2048$ 时，其计算量会很大，最终的推理速度慢。还有使用Pyramid Pooling Module的PSPNet也可以得到多尺度的特征，同样计算量较大。

另一个不需要保持较大的分辨率的做法就是使用多层特征融合的方式，类似FPN。通过将深层的具有强烈语义相关的特征图传递到浅层中，使得最终的特征图同时具有丰富的语义信息和细节信息。作者认为这种方式并没有将深层的语义信息很好的传递到浅层。

因此，这篇文章为了使得深层的语义信息更有效的传递到浅层，提出了一种语义流（Semantic Flow）的模块来辅助不同的层的特征之间的融合。作者认为之间的方式没有很好的进行特征之间的传递是因为不同的层的特征对不齐(misalignment)。因为在不同层之间进行特征融合的时候，由于分辨率不同，需要进行上采样操作，同时，在多次的下采样和残差连接的时候都会使得不同层的特征之间对不齐。

这篇文章的语义流的目的就是使得特征之间能够尽量对齐的。其想法来自于光流(Optical Flow)，这是用于分析连续图像或者视频帧的动作，作者将不同层的特征看作是不同的视频帧，由于它们之间没有很好的对齐，所以看作是不同层发生的移动，通过光流的方式来得到这种移动，进而能够对未对齐的特征进行一定的修复使得它们能够对齐。