Multispectral Fusion Transformer Network for RGB-Thermal Urban Scene Semantic Segmentation
Abstract
语义分割在自动驾驶汽车中起着至关重要的作用。融合RGB图像的丰富细节和热成像的光照鲁棒性有望提升RGB-T语义分割的性能。在多光谱特征融合中,目前的主要方法在RGB-T的相关性和互补性表征方面效果较差。为了生成鲁棒的跨光谱融合特征,我们提出了一种多光谱融合Transformer网络(MFTNet)。具体来说,我们首先设计了一个MFT模块,用于处理多光谱融合编码器中RGB-T的光谱内相关性和光谱间互补性。MFT有效增强了RGB-T特征表示在各种挑战下的表现。然后,提出了一种带有渐进深度监督(PDS)损失的优化策略,直接监督解码器的上下层。该策略可以引导解码器以由粗到细的方式实现精确的分割。最后,大量实验结果证明了我们方法的有效性。在MFNet数据集上,MFNet实现了74.7的mAcc和57.3的mIoU,优于最新的先进方法。
Introduction
街景的语义分割使自动驾驶系统具有环境理解能力[1]。在光照充足的条件下,可见光传感器可以有效地捕获目标的颜色和纹理等表观信息。然而,在夜间、多云和其他欠光照环境中,目标和背景之间的对比度下降。仅依靠可见的图像[2]就不能准确地识别目标。与可见光相比,热传感器利用目标与场景之间的辐射能来采集图像,具有良好的照明鲁棒性[3]。因此,基于RGB-T融合的多光谱传感器可以有效地提高自动驾驶汽车的精度和鲁棒性。
目前,多光谱语义分割模型主要采用编码-解码网络体系结构[4]。他们使用两个编码器来提取不同光谱图像的特征。解码器通过结合来自两个子编码器的特征来实现像素级分割。在RGB-T特征融合方面,目前大多数工作采用两种谱特征[5]-[7]的直接相加或直接级联,缺乏两种谱的相关性和互补性的表征。
然而,具有丰富上下文信息的鲁棒跨谱融合特征对于语义分割[8],[9]至关重要。可以说,RGB-T的谱内相关性和谱间互补性可以提高分析目标和场景的可靠性和完整性。
- MFNet [2]简单地将RGB-T子编码器的两个独立特征作为解码器的输入,而不考虑任何相关性。
- RTFNet [10]将红外特性添加到RGB编码器中,以学习RGB编码器中不同光谱之间的互补性。
- PST900 [11]首先通过UNet [4]模型独立预测RGB的分割结果,然后将RGB输出、RGB和热连接到解码器中,预测最终的语义分割结果。
- FuseSeg [12]基于RFTNet,进一步将增强的RGB特征连接到解码器中,实现了解码器和编码器两个阶段的融合。
- FEANet [13]利用注意机制从空间和通道维度上增强RGB-T特征。
基于可见图像具有丰富的细节和热图像对照明的鲁棒性,我们提出了一种用于RGB-T语义分割的多光谱融合变压器网络(MFTNet). 充分利用Transformer模型远程依赖[14]进行建模,设计了一个多光谱融合变压器(MFT)模块,以提高RGB-T编码器的特征提取能力。MFT模拟了光谱的自相关和光谱之间的互补性,通过结合多光谱融合特征,获得了准确、鲁棒的语义结果。
此外,还提出了渐进式深度监督(PDS)损失来指导解码器的上层和下层,以实现从粗到细的分割。PDS利用多尺度真实值对预测结果进行深度监督,在几乎不增加计算成本的情况下,可以有效地提高RGB-T的分割性能。
本文贡献:
- 我们提出了一种新的MFTNet来突出RGB-T的种内相关性和光谱间的互补性。MFT在多个尺度上融合多光谱信息,以提高特征提取的能力
- 为了指导解码器以粗到细的方式实现精确分割,我们提出了PDS损失。具体来说,低分辨率特征主要预测目标的整体形状,高分辨率预测进一步学习了更丰富的详细信息。
- 在MFNet数据集上的大量实验证明,所提出的MFTNet在RGB-T城市场景语义分割上优于最先进的方法。
Multispectral Fusion Transformer Network
A. Multispectral Fusion Encoder and Decoder
1)多光谱融合编码器:
RGB和热成像使用两个相似的编码器。为了进行更好的对比分析,我们使用ResNet-152作为特征提取网络,与RTFNet和FEANet相同。如图1所示,每个ResNet层包括一个卷积层、一个批量归一化(BN)层和一个修正线性单元(ReLU)层:
R
=
F
r
(
x
r
)
+
x
r
T
=
F
t
(
x
t
)
+
x
t
(1)
R = \mathcal F_r(x_r) + x_r\\ T = \mathcal F_t(x_t) + x_t \tag{1}
R=Fr(xr)+xrT=Ft(xt)+xt(1)
其中,
x
r
x_r
xr和
x
t
x_t
xt分别是各层的RGB和热成像特征。函数
F
r
F_r
Fr和
F
t
F_t
Ft表示RGB-T分支中的残差映射。我们将R1和T1的通道数分别调整为3和1。随后的四个层(Rk和Tk,k = 2, 3, 4和5)逐渐增加特征图通道数并减少分辨率。
2) Decoder:
解码器主要用于获得高分辨率的语义分割预测。MFTNet包含五个转置卷积模块(TCM),每个模块上采样两次。图2展示了TCM块的详细结构。
具体来说,
T
C
M
1
TCM_1
TCM1的输入
X
1
X_1
X1是多光谱融合特征
F
f
u
s
e
d
F^{fused}
Ffused.
T
C
M
k
TCM_k
TCMk的输入
X
k
X_k
Xk是通过连接得到的,即
X
k
=
c
a
t
(
F
f
u
s
e
d
,
O
k
−
1
)
X_k = cat(F^{fused}, O_{k−1})
Xk=cat(Ffused,Ok−1). 其中
F
f
u
s
e
d
∈
R
h
×
w
×
c
1
,
O
k
−
1
∈
R
h
×
w
×
c
2
F^{fused} \in \mathbb R^{h×w×c_1}, O_{k−1} \in \mathbb R^{h×w×c_2}
Ffused∈Rh×w×c1,Ok−1∈Rh×w×c2, 而
X
k
∈
R
h
×
w
×
(
c
1
+
c
2
)
X_k \in \mathbb R^{h×w×(c_1+c_2)}
Xk∈Rh×w×(c1+c2), k = 2, 3, 4和5。因此,TCMk(·)定义为:
O k = T C M k ( X k ) (2) O_k = TCM_k(X_k) \tag{2} Ok=TCMk(Xk)(2)
其中,
O
k
∈
R
2
h
×
2
w
×
c
2
O_k \in\mathbb R^{2h×2w×c_2}
Ok∈R2h×2w×c2是
T
C
M
k
TCM_k
TCMk层的输出,并且
c
2
=
64
c_2 = 64
c2=64。在公式(2)中,特征图
X
k
X_k
Xk 上采样两次。
B. Multispectral Fusion Transformer (MFT)
如图1所示,与标准的Transformer不同,我们通过调整自注意力层来捕捉长距离的光谱内和光谱间依赖性。MFT可以获得跨光谱融合特征,如下所示:
F
∗
=
MFT
(
F
r
,
F
t
)
(3)
F^* = \text{MFT}(F_r, F_t) \tag{3}
F∗=MFT(Fr,Ft)(3)
其中, F r ∈ R h × w × c F_r \in \mathbb{R}^{h \times w \times c} Fr∈Rh×w×c 和 F t ∈ R h × w × c F_t \in \mathbb{R}^{h \times w \times c} Ft∈Rh×w×c 分别是编码器的RGB和热特征图。
首先,在MFT的自注意力层中,
F
r
F_r
Fr 通过三个线性变换嵌入到RGB查询
Q
r
∈
R
h
w
×
d
Q_r \in \mathbb{R}^{hw \times d}
Qr∈Rhw×d、键
K
r
∈
R
h
w
×
d
K_r \in \mathbb{R}^{hw \times d}
Kr∈Rhw×d 和值
V
r
∈
R
h
w
×
d
V_r \in \mathbb{R}^{hw \times d}
Vr∈Rhw×d 中。热特征图的查询
Q
t
∈
R
h
w
×
d
Q_t \in \mathbb{R}^{hw \times d}
Qt∈Rhw×d、键
K
t
∈
R
h
w
×
d
K_t \in \mathbb{R}^{hw \times d}
Kt∈Rhw×d 和值
V
t
∈
R
h
w
×
d
V_t \in \mathbb{R}^{hw \times d}
Vt∈Rhw×d 以相同方式获得。为了学习多光谱间的依赖性,我们通过拼接获得多光谱
K
K
K 和
V
V
V:
K
=
cat
(
K
r
,
K
t
)
V
=
cat
(
V
r
,
V
t
)
(4)
K = \text{cat}(K_r, K_t)\\ V = \text{cat}(V_r, V_t) \tag{4}
K=cat(Kr,Kt)V=cat(Vr,Vt)(4)
在公式 (4) 中,MFT的 K K K 和 V V V 包含多光谱信息。其次,我们如同在 [16] 中那样,计算单一光谱查询与多光谱键之间的注意力。MFT注意力用于调整多光谱值 V V V,定义如下:
Attention ( Q r , K , V ) = σ ( Q r K T d ) V Attention ( Q t , K , V ) = σ ( Q t K T d ) V (5) \text{Attention}(Q_r, K, V) = \sigma\left(\frac{Q_r K^T}{\sqrt{d}}\right) V\\ \text{Attention}(Q_t, K, V) = \sigma\left(\frac{Q_t K^T}{\sqrt{d}}\right) V \tag{5} Attention(Qr,K,V)=σ(dQrKT)VAttention(Qt,K,V)=σ(dQtKT)V(5)
其中, σ ( ⋅ ) \sigma (·) σ(⋅) 是softmax函数。在公式 (5) 中,MFT有效地学习了光谱内的相关性和光谱间的交互。然后,我们使用与 [16] 中相同的多头注意力机制、非线性变换、层归一化和残差连接。最后,将包含RGB-T属性的张量映射为鲁棒的多光谱融合特征 F ∗ ∈ R h × w × c F^* \in \mathbb{R}^{h \times w \times c} F∗∈Rh×w×c。
C. Progressive Deep Supervision (PDS)
在解码器中,金字塔结构使模型能够输出不同尺度的预测。具有不同空间分辨率的语义预测包含不同的目标成分。低分辨率预测包含更多的低频成分,代表图像的整体灰度分布。高分辨率预测包含更多的高频成分,如目标边缘和细节。受深度监督网络的启发,在解码器不同空间分辨率的层中应用深度监督可以提高不同频率特征的学习性能。
与现有方法不同,我们不进行上采样操作将特征大小重新调整为原始尺寸。我们使用相应尺度的真实标签进行高效和准确的监督。我们没有使用相同的损失函数来监督不同频率特征的学习,而是设计了不同的损失函数指导模型,根据不同特征的特点进行针对性的学习。
低分辨率预测主要学习目标的大致外观,我们使用Dice损失来提高目标像素预测的召回率。基于低分辨率特征图,MFTNet通过交叉熵损失从高分辨率特征图中学习更丰富的细节。通过在深度监督下的渐进学习,实现最终的高精度语义分割。每层的PDS损失如下所示:
L
1
=
L
C
E
(
O
5
,
G
1
)
L
2
=
L
C
E
(
O
4
,
G
2
)
L
3
=
L
C
E
(
O
3
,
G
4
)
L
4
=
L
C
E
(
O
2
,
G
8
)
+
L
D
i
c
e
(
O
2
,
G
8
)
(6)
L_1 = L_{CE}(O_5, G_1)\\ L_2 = L_{CE}(O_4, G_2)\\ L_3 = L_{CE}(O_3, G_4)\\ L_4 = L_{CE}(O_2, G_8) +L_{Dice}(O_2, G_8) \tag{6}
L1=LCE(O5,G1)L2=LCE(O4,G2)L3=LCE(O3,G4)L4=LCE(O2,G8)+LDice(O2,G8)(6)
其中, L C E L_{CE} LCE是交叉熵损失函数, L D i c e L_{Dice} LDice是Dice损失, O k O_k Ok 是 T C M k TCM_k TCMk 层的预测结果, G i G_i Gi 是下采样的语义分割掩码, k = 2 , 3 , 4 k = 2, 3, 4 k=2,3,4 和 5 5 5, i = 1 , 2 , 4 i = 1, 2, 4 i=1,2,4 和 8 8 8。
整个网络的PDS损失函数 L p d s L_{pds} Lpds 是:
L p d s ( O , G ) = ∑ n = 1 4 λ n L n L_{pds}(O, G) = \sum_{n=1}^{4} \lambda_n L_n Lpds(O,G)=n=1∑4λnLn
其中, λ n \lambda_n λn 是PDS的权重。
可以说,如公式 (6) 和 (7) 所示,不同的监督信号在解码器的不同阶段引入了不同的信息,使模型预测模块之间的分工和合作更加紧密,分割结果更加准确和鲁棒。