Gated Fully Fusion for Semantic Segmentation论文阅读

最新推荐文章于 2024-10-25 12:42:17 发布

小天要奔跑

最新推荐文章于 2024-10-25 12:42:17 发布

阅读量2.4k

点赞数 4

分类专栏：语义分割文章标签：计算机视觉深度学习

本文链接：https://blog.csdn.net/qq_38861679/article/details/111455561

版权

语义分割专栏收录该内容

8 篇文章

订阅专栏

深度卷积网络在语义分割任务中，高层次特征低分辨率导致小物体和边界分割效果差。文章提出Gated Fully Fusion（GFF）结构，选择性融合多尺度特征，还提出DFP模块编码上下文信息。通过实验证明GFF在融合高低层次特征上更具优势，GFF融合模块和DFP稠密连接金字塔有效。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Abstract

深度卷积网络在语义分割任务上是有效的，但是高层次特征的低分辨率导致在小物体和边界上的分割效果较差(需要细节信息)。考虑引入低层次特征去补偿高层次特征丢失的细节信息是很自然的想法，仅仅结合多尺度特征存在着语义间隔问题。这篇文章提出Gated Fully Fusion(GFF)结构，选择性融合多尺度特征，通过融合强语义高层次特征和细节低层次特征提升特征表达能力，gates用来控制有用信息的传播，减少融合时的噪声。

Introduction

语义分割的基本任务是为每个像素产生高层次表达：高层次和高分辨率的特征图，高分辨率和高层次特征图分布在卷积网络的两端。卷积网络中，不容易得到同时包含高分辨率和高语义的特征图，因此融合顶层的高层次特征和底层的高分辨率特征是必要的，高级特征图可以粗略地正确预测大图案上的大多数像素，这在当前的语义分割方法中得到了广泛使用，而低级特征图只能预测小图案上的少量像素。仅仅结合高层次和高分辨率特征图会将有用的信息淹没在大量的无用信息中，因此需要提出先进的融合机制去选择性收集不同的特征图信息，GFF使用门控机制(时间序列中的常见信息提取方式)去像素级衡量每个特征向量的有用性，从而控制信息的传播。每一层的gate要么发送有用的信息到另外的层，要么当当前层信息无用时用来从其他层收集信息。使用门去控制信息传播，网络中的冗余可以被有效地最小化，使我们能够以全连接方式融合多层次特征图。

大感受野下的上下文信息也很重要，在GFF之后，还提出了DFP(Dense feature pyramid)模块去编码每个特征图的上下文信息。文章贡献为：提出GFF和DFP；可视化展示GFF的信息调节机制；Cityscapes数据集上Resnet101达到82.3等。

Related work

上下文建模：PSPNet，ASPP，SVCNet，PSANet，DANet，CCNet，EMANet等。
多层次特征融合：包括UNet在encoder与decoder之间使用跳连接(skip connections)，Deeplabv3+的简单decoder结构等。但是这些方法都没有考虑待融合特征图的有用性(特征图中可能有无用信息)。
门机制：门是用来控制信息传播的，LSTM和GRU网络用门处理长时记忆和依赖。

Approach

1.Network Architecture

在这里插入图片描述

concat是聚合多尺度特征图信息的直接操作(deeplabv3+等)，但是会混合有用信息和大量无用信息；加法是结合特征图的另一种简单方式，每个位置特征相加；FPN网络通过自上而下的横向连接来完成融合。公式表达如下：
在这里插入图片描述
这些融合方法没有考虑特征的有用性(这是论文的出发点)。

2.Gated Fully Fusion
在这里插入图片描述
门能够衡量特征图中，每个特征向量的有用性。上图的公式表达如下：
公式很好理解， $G_l$ 是当前层特征通过门获得的响应图，第 $i$ 层gate map $G_i=sigmoid(w_i*X_i)$ ， $w_i\in {\mathbb{R}^{1\times 1\times C_i}}$ 是学习到的通道权重向量。其原理描述为：层次为 $i$ ，位置为 $(x, y)$ 的特征向量要融合到层次为 $l(i\neq l)$ ，需要满足 $G_i(x,y)$ 大，且 $G_l(x,y)$ 小，(理想下)当 $i$ 层次有着 $l$ 层次缺失的信息时，把信息传过来。除了可以通过门将有用的信息调整到正确的位置外，还可以有效地抑制发送端和接收端无用的信息，避免信息冗余，因为只有当当前位置具有无用的特征时才能接收信息。下文通过可视化实验给出证明，通过门控筛选出了有用的信息，在处理远处的缺失物体，如交通杆，交通灯和目标边界上效果更优。在这里插入图片描述
3.Dense Feature Pyramid

可以直观看出，Dense Feature Pyramid实际上将PPM语义头的输出特征图和GFF Module的各个层次输出的特征图进行稠密连接，然后concat在一起，是对高语义特征图的重利用。