
出处:ICCV2021
文章目录
一、背景
不同类别的共现特性(Co-occurrent)在语义分割中通常被用来聚合上下文特征,来提升像素的表达能力。
FCN 是一个有力的基石,基于此,目前的研究大多集中在两个方面:
- 如何提升encoder对每个pixel的特征提取能力
- 如何通过上下文信息的建模来提升每个像素的表达能力
不同类别目标的“共现特性”促使了很多方法的产生,主流有两种方法:
- 多尺度上下文建模(Multi-scale context modeling):DeepLab,PSP
- 关系上下文建模(Relational context modeling):Non-local,ACFNet,OCRNet
二、动机
现有的方法通常聚焦于从整幅图上建模语义信息,即聚合—— image-level contextual information。
但这样做会有一个问题,即忽略了同一个类别内部像素的特征表达——semantic-level contextual information。因此,它们都面临着同一个问题,即每个像素的上下文信息从该像素所属的类别区域和其他类别区域获取的不均匀。例如,边界处的像素或小目标的像素会更多的捕捉到其他目标的上下文信息,所以会导致网络将这些像素预测为其他类别。
于是本文提出了一种方法,来通过聚合 image-level && semantic-level contextual information 来增强像素表达

三、方法
SLCM: Semantic-Level Context Module
ILCM: Image-Level Context Module

3.1 整体过程
1、输入图像经过 backbone 得到
C
×
H
8
×
W
8
C \times \frac{H}{8} \times \frac{W}{8}
C×8H×8W

2、捕捉两种上下文信息
-
使用 image-level context module M i l M_{il} Mil 来聚合整幅图像的上下文信息

-
使用 semantic-level context module S i l S_{il} Sil 来捕捉每个类别内的上下文信息

3、计算相似度
-
R
R
R 和
R
i
l
R_{il}
Ril 的相似度

-
S
S
S 和
S
i
l
S_{il}
Sil 的相似度

4、使用相似度结果来增强(augment)特征



5、使用
R
a
u
g
R_{aug}
Raug 来预测原图像素类别

- H H H 是 classification head
- O O O 能是存储着每个pixel预测类别信息的矩阵,大小为 K × H × W K\times H\times W K×H×W, K K K 是类别个数
3.2 Image-Level Context Module
Image-level context module ( M i l M_{il} Mil)是用来从图像层面捕捉上下文信息的模块,之前的 ASPP/PPM/OCR 等模块都是使用类似的方式来入手的。
为了实现更高效的模块:
1、作者首先计算了
R
R
R 的 channel-wise 的平均值,如下所示,
g
g
g 是维度为
C
×
1
×
1
C\times 1\times 1
C×1×1 且包含了通道全局上下文信息的矩阵。

2、将
g
g
g 和
R
R
R 相加,得到
R
i
l
R_{il}
Ril

- F F F 是聚合函数,使用 1 × 1 1\times 1 1×1 卷积实现
- r e p e a t repeat repeat 是在对应通道复制 g g g 的元素,使得 g g g 和 R R R 大小相同
3.3 Semantic-Level Context Module
Semantic-Level Context Module( M s l M_{sl} Msl)被用来聚合每个类别内部的上下文信息,如图2所示:
1、首先使用 classification head
H
′
H'
H′ (两个卷积层构成) 来预测类别概率分布
D
∈
K
×
H
8
×
W
8
D \in K \times \frac{H}{8} \times \frac{W}{8}
D∈K×8H×8W

2、根据
D
D
D,则
R
R
R 可以被划分成多个类别区域

- c k ∈ [ 1 , K ] c_k \in [1, K] ck∈[1,K]:表示类别真值
- R c k ∈ N c k × C R_{ck} \in N_{ck} \times C Rck∈Nck×C, N c k N_{ck} Nck 表示属于类别 c k c_k ck 的像素总数
3、 D c k ∈ N c k × 1 D_{ck} \in N_{ck}\times 1 Dck∈Nck×1 也可以表示如下:

4、利用每个像素属于的类别来聚合 semantic-level contextual information,每个语义类别
c
k
c_k
ck 的 region representation 如下:

- R c k ′ ∈ 1 × C R_{ck}' \in 1\times C Rck′∈1×C,是每个类别内的聚合向量
5、求得所有 region representation 之后,得到 tensor:

- R s l ∈ C × H 8 × W 8 R_{sl} \in C\times \frac{H}{8} \times \frac{W}{8} Rsl∈C×8H×8W 为最终的 semantic-level contextual information
3.4 Loss Function
1、 D D D 的loss


2、
O
O
O 的 loss

3、整体的多任务学习 loss,
α
=
0.4
\alpha=0.4
α=0.4

四、效果



该研究针对语义分割中的共现特性,提出了融合图像级和语义级上下文信息的方法,旨在解决边界像素和小目标像素预测准确性的问题。通过Image-Level Context Module和Semantic-Level Context Module,分别捕捉全图和类别内部的上下文,然后通过相似度计算增强特征表达,从而提高像素级别的分类性能。实验结果表明,这种方法有效提升了语义分割的精度。
1595

被折叠的 条评论
为什么被折叠?



