【EDAFormer】Embedding-Free Transformer with Inference Spatial Reduction for Efficient Semantic Segmentation
论文链接:http://arxiv.org/abs/2407.17261
代码链接:https://github.com/hyunwoo137/EDAFormer
一、摘要
文中介绍了一种Encoder-Decoder Attention Transformer,即EDAFormer,它由Embedding-Free Transformer(EFT)编码器和利用提出的Embedding-Free Attention(EFA)结构的全部注意力解码器组成。提出的EFA是一种新颖的全局上下文建模机制,它专注于全局非线性,而不是查询、键和值的特定角色。
对于解码器,探索了考虑全局性的优化结构,这可以提高语义分割性能。此外,还提出了一种新颖的推理空间降维(ISR)方法,以提高计算效率。与先前的空间降维注意力方法不同,ISR方法在推理阶段进一步减少了键-值分辨率,这可以缓解高效语义分割的计算性能折衷差距。
EDAFormer在包括ADE20K、Cityscapes和COCO-Stuff在内的三个公共基准上与现有的基于Transformer的语义分割模型相比,在有效计算方面展示了最先进的性能。此外,ISR方法在Cityscapes数据集上将计算成本降低多达61%,同时对mIoU性能的损失最小。
二、创新点
-
提出了一种新颖的无嵌入式注意力结构,该结构消除了查询、键和值的具体角色,但专注于全局非线性,从而实现了强大的性能。
-
介绍了一种语义分割模型,即EDAFormer,该模型设计嵌入自由变换器EFT编码器和全注意力的解码器。解码器在更高层次上利用了更多的EFA模块,以更有效地捕获全局上下文。
-
提出了一种新的推理空间降维ISR方法,用于提高效率,该方法能够在推理阶段减少计算成本,同时降低性能损失,并允许选择性地调整预训练的transformer模型的计算成本。
-
EDAFormer在三个公开的语义分割基准测试上,在效率和准确性方面超过了现有的基于transformer的语义分割模型。
目录
- 【EDAFormer】Embedding-Free Transformer with Inference Spatial Reduction for Efficient Semantic Segmentation
- 一、摘要
- 二、创新点
- 三、原理
- 四、实验
- 4.1 Experimental Settings
- 4.2 Comparison with State-of-the-art Methods
- 4.3 Effectiveness of our EFA at Decoder
- 4.4 Structural Analysis of our All-attention Decoder
- 4.5 Effectivness of our ISR in our EDAFormer
- 4.6 Comparison between the model with and without ISR.
- 4.7 Effectiveness of Embedding-Free Structure for ISR
- 4.8 Comparison of Spatial Reduction Methods for ISR
- 4.9 Inference Speed Enhancement
- 4.10 Applying ISR to Various Transformer-based Models
- 4.11 Visualization of Features
- 4.12 Qualitative Results
- 五、总结
- Appendix
- A Additional Comparison to Transformer-based Models
- B Computational Analysis in Attention Block
- C Comparison of Decoder Structure with Same Backbone
- D Various Reduction Ratios for ISR
- E FPS Comparison with Other Segmentation Models
- F Applying EFA to Other Backbones
- G Additional Feature Visualization
- H Additional Qualitative Results
三、原理
EDAFormer. 如图1(a) 所示,利用了一个层次化的编码器结构,这在语义分割任务中是非常有效的。当输入图像为
I
∈
R
H
×
W
×
3
I \in R^{H×W×3}
I∈RH×W×3时,每个
阶段的输出特征被定义为
F
i
∈
R
H
2
i
+
1
×
W
2
i
+
1
×
C
i
F_{i} \in R^{\frac{H}{2^{i+1}} × \frac{W}{2^{i+1}} × C_{i}}
Fi∈R2i+1H×2i+1W×Ci,其中
i
∈
1
,
2
,
3
,
4
i \in {1, 2, 3, 4}
i∈1,2,3,4表示编码器阶段的索引,
C
C
C是通道维度。在每个阶段中,特征首先通过 patch嵌入块进行下采样,然后再输入到transformer块中。
如图1(b)所示,编码器块结构由嵌入自由注意力(EFA)和前馈层(FFL)组成。如图2 (b) 所示,EFA 模块省略了对查询Q、键K 和值 V 嵌入的线性投影,这些嵌入是轻量级的,并有效地提取了全局上下文。此外,在推理阶段采用了空间降维注意力(SRA)结构 [59] 来利用ISR。使用非参数操作和平均池化来减少键值空间分辨率,这在推理阶段的空间降维中影响较小。EFA 模块的公式如下:
Q
=
x
i
n
,
K
=
V
=
S
R
(
x
i
n
,
R
)
,
A
t
t
=
s
o
f
t
m
a
x
(
Q
,
K
T
/
d
K
)
,
x
o
u
t
=
A
t
t
⋅
V
,
(1)
\bm{Q} = x_{in}, \bm{K} = \bm{V} = SR(x_{in}, R), \\ Att = softmax(\bm{Q}, K^{T}/\sqrt{d_{K}}), x_{out} = Att \cdot V,\tag1
Q=xin,K=V=SR(xin,R),Att=softmax(Q,KT/dK),xout=Att⋅V,(1)
其中
S
R
SR
SR和
R
R
R分别表示通过平均池化实现的空域降维和减少比率。
x
i
n
x_{in}
xin直接用作查询,而空域降维的特征用作键值。在用于查询和键之间的相似度分数的softmax函数部分,可以对输入特征应用全局非线性,允许在没有特定查询、键和值角色的情况下提取全局上下文。然后,FFL被形式化为以下内容:
F
F
L
(
x
i
n
)
=
L
i
n
e
a
r
(
(
D
W
(
L
i
n
e
a
r
(
x
i
n
)
)
)
)
,
(2)
FFL(x_{in}) = Linear((DW(Linear(x_{in})))),\tag2
FFL(xin)=Linear((DW(Linear(xin)))),(2)
其中
D
W
DW
DW表示深度卷积。由于EFA和FFL是串联连接的,因此EFT块的整体过程被形式化为:
z
=
E
F
A
(
L
N
(
x
i
n
)
)
+
x
i
n
,
x
o
u
t
=
F
F
L
(
L
N
(
z
)
)
+
z
,
(3)
\bm{z} = EFA(LN(x_{in})) + x_{in}, x_{out} = FFL(LN(\bm{z})) + \bm{z},\tag3
z=EFA(LN(xin))+xin,xout=FFL(LN(z))+z,(3)
其中
z
\bm{z}
z是中间特征,而LN是一个层归一化。这种无嵌入的结构对于分类和语义分割都是有效的。此外,从经验上发现,无嵌入结构在考虑计算和性能下降之间的权衡时,对于ISR也是有效的。
全注意解码器。正如先前模型 [24, 70, 77] 所证明的,在解码器特征中应用空间降维注意力SRA可以有效地捕获全局语义感知特征。因此,设计了一个全注意解码器,它由解码器阶段的EFT块组成。作者还探索了使用EFT块的解码器最佳结构。结果表明,对高阶特征应用更多注意块,可以有效地捕获更全局、更语义信息的特征。图3 (a) 所示的解码器具有一个层次结构,它分别在第1至第3解码器阶段使用3、2和1个EFT块。与先前基于transformer的分割模型的解码器相比,这个结构由更多的transformer块组成,但计算成本较低,因为EFT块轻量级。
在所有注意解码器中,每个编码器阶段
i
∈
2
,
3
,
4
i \in {2, 3, 4}
i∈2,3,4的输出特征
F
i
\bm{F}_{i}
Fi 首先被输入到每个解码器阶段
j
∈
3
,
2
,
1
j \in {3, 2, 1}
j∈3,2,1的EFT块中,其中
j
j
j表示解码器阶段的索引。然后,每个解码器阶段的特征
F
^
j
∈
R
H
j
×
W
j
×
C
j
\hat{\bm{F}}_{j} \in R^{H_{j}×W_{j}×C_{j}}
F^j∈RHj×Wj×Cj使用双线性插值上采样到
H
2
×
W
2
H_{2} × W_{2}
H2×W2分辨率。这些上采样的特征
U
j
∈
R
H
2
×
W
2
×
C
j
\bm{U}_{j} \in R^{H_{2}×W_{2}×C_{j}}
Uj∈RH2×W2×Cj然后被连接并传递给线性层进行融合。最后,最终的预测掩码通过另一个线性层投影到类数
C
c
l
s
C_{cls}
Ccls掩码。这个过程被公式化为:
F
^
j
=
E
F
T
(
L
N
(
F
i
)
)
+
F
i
,
∀
i
U
j
=
U
p
s
a
m
p
l
e
(
F
j
^
)
,
F
c
=
C
o
n
c
a
t
(
U
j
)
,
∀
i
M
=
L
i
n
e
a
r
(
L
i
n
e
a
r
(
F
c
)
)
,
(4)
\hat{F}_{j} = EFT(LN(\bm{F}_{i})) + \bm{F_{i}}, ∀i \\ \bm{U}_{j} = Upsample(\hat{\bm{F}_{j}}), \bm{F}_{c} = Concat(\bm{U}_{j}), ∀i \\ \bm{M} = Linear(Linear(\bm{F}_{c})), \tag4
F^j=EFT(LN(Fi))+Fi,∀iUj=Upsample(Fj^),Fc=Concat(Uj),∀iM=Linear(Linear(Fc)),(4)
其中
M
∈
R
H
2
×
W
2
×
C
c
l
s
\bm{M} \in R^{H_{2}×W_{2}×C_{cls}}
M∈RH2×W2×Ccls是最终的预测掩码。
3.2 Inference Spatial Reduction Method
与以往的SRA不同,推理空间降维(ISR)方法在推理阶段减少了键值空间分辨率。所提方法通过改变与EFA模块中平均池化比率相关的超参数来实现计算效率。ISR可以在自注意力结构中使用,因为自注意力具有一种特殊结构,其中减少键值分辨率不会影响输入和输出特征的形状。由于这种结构,可以在推理期间调整减少比例,而不会影响输入和输出特征的分辨率。
然而,在训练时大幅减少键值分辨率具有计算效率的优势,但会导致性能下降,因为查询无法考虑足够的键值信息。为了解决这个问题,所提的ISR通过在推理时减少键值分辨率来缓解计算成本和准确度之间的权衡差距。这一部分描述了所提的ISR是如何应用于EDAFormer,它是为有效应用ISR而优化的架构。
如图1所示,EDAformer在编码器-解码器结构中使用了提出的Transformer块。每个编码器阶段和解码器阶段使用的基于池化的SRA都有一个对应的减少比例设置,用于减少键值分辨率。如图3所示,在训练时,每个编码器阶段的减少比例 t E i t^{i}_{E} tEi 设置为[8, 4, 2, 1],这是其他先前模型 [58,59,65]使用SRA的默认设置。解码器阶段接收每个编码器特征的减少比例 t D j t^{j}_{D} tDj设置为[1, 2, 4],这与相应的编码器阶段的减少比例相同。 t E t_{E} tE 和 t D t_{D} tD分别表示训练时编码器和解码器的减少比例。
之前注意力的计算复杂性如下:
Ω
(
S
R
A
)
=
2
(
h
w
)
2
r
2
c
,
(5)
Ω(SRA) = 2\frac{(hw)^{2}}{r^{2}c},\tag5
Ω(SRA)=2r2c(hw)2,(5)
其中
Ω
Ω
Ω和
S
R
A
SRA
SRA分别表示计算复杂度和空间降维注意力。
h
h
h、
w
w
w 和
c
c
c 分别表示特征的高度、宽度和通道数。
r
r
r 是训练阶段的空间降维比例。
在设定的降维比例下,训练EDAFormer以获得预训练的权重。之后,在推理阶段,用户可以根据需要调整推理计算减少的比例。
如图3所示,
r
E
i
r^{i}_{E}
rEi和
r
D
j
r^{j}_{D}
rDj分别表示推理阶段的编码器和解码器的降维比例。它们被定义为:
r
E
i
=
t
E
i
×
a
E
i
,
∀
i
r
D
i
=
t
D
i
×
a
D
i
,
∀
j
(6)
r^{i}_{E} = t^{i}_{E} \times a^{i}_{E}, ∀i \\ r^{i}_{D} = t^{i}_{D} \times a^{i}_{D}, ∀j \tag6
rEi=tEi×aEi,∀irDi=tDi×aDi,∀j(6)
其中,
a
E
i
a^{i}_{E}
aEi和
a
D
i
a^{i}_{D}
aDi分别代表编码器和解码器在推理阶段的额外降维比例,在应用ISR后,计算复杂度根据以下公式进行计算:
Ω
(
I
S
R
(
S
R
A
)
)
=
2
(
h
w
)
2
r
2
a
2
c
,
(7)
Ω(ISR(SRA)) = 2 \frac{(hw)^{2}}{r^{2}a^{2}}c,\tag7
Ω(ISR(SRA))=2r2a2(hw)2c,(7)
其中 I S R ISR ISR 是推理空间压缩, a a a 是推理时的额外压缩比。因此,ISR的一个优势在于,它可以在不进行额外训练的情况下,从预训练模型中轻松获得计算压缩。ISR在训练中减少的性能退化相比减少 r 2 a 2 r^{2}a^{2} r2a2时更少。经验上,在编码器-解码器中,最优设置是[16,8,2,1]-[2,4,8],它从性能退化到计算成本减少都具有最佳的减少比例。
四、实验
4.1 Experimental Settings
数据集。ADE20K [79] 是一个室内外场景解析的挑战性数据集。它包含150个语义类别和 20,210/2,000/3,352 张训练、验证和测试图像。Cityscapes[14] 是一个包含 5,000 张精细标注图像的都市驾驶场景数据集,共有 19个语义类别。它包含 2,975/500/1,525 张训练、验证和测试图像。COCO-Stuff [3] 是一个包含 164,062 张图像和 172 个语义类别的挑战性数据集。
实现细节。实验在4 张 RTX 3090 显卡上使用 mmsegmentation 代码库训练所提模型。在 ImageNet-1K [16] 上预训练了编码器,而解码器则是随机初始化的。对于分类和分割评估,分别采用了Top-1 准确率和平均交并比(mIoU)。在 ImageNet 预训练中应用了与PVTv2 [58] 相同的训练设置和数据增强策略。对于 ADE20K、Cityscapes和 COCO-Stuff,分别应用了随机水平翻转、随机缩放(比例为 0.5-2.0)和随机裁剪(大小为 512 × 512 512×512 512×512、 1024 × 1024 1024×1024 1024×1024 和 512 × 512 512×512 512×512)。ADE20K和 COCO-Stuff 的批量大小为 16,Cityscapes 的批量大小为 8。在ADE20K、Cityscapes 和 COCO-Stuff 上使用了 AdamW 优化器进行了160K 次迭代。
4.2 Comparison with State-of-the-art Methods
语义分割。表1对与三个公共数据集上的先前基于transformer的方法进行了比较。比较包括参数大小、FLOPs和mIoU性能。轻量级模型EDAFormer-T(w/ ISR)显示了42.1%、78.7%和40.3%的mIoU,较大模型EDAFormer-B (w/ISR)在每个数据集上达到了48.9%、81.6%和45.8%的mIoU。与先前的方法相比,EDAFormer在有效计算方面均达到了该领域的最先进性能。
EFT编码器在ImageNet上的表现。表2对Embedding-Free Transformer (EFT)编码器与在ImageNet-1K分类任务上现有的模型进行了比较。EFT在分类任务中考虑全局空间信息,即使没有查询、键和值的嵌入,也实现了比其他transformer模型更高的性能。
4.3 Effectiveness of our EFA at Decoder
为了验证在解码器中考虑全局性的有效性,在表3(a)中比较了EFT块中的Embedding-Free Attention(EFA)位置的不同操作。应用的操作是局部上下文操作(即,
D
W
C
o
n
v
DW Conv
DWConv,
C
o
n
v
Conv
Conv)和全局上下文操作(即,
w
/
e
m
b
e
d
d
i
n
g
a
t
t
e
n
t
i
o
n
w/ \ embedding \ attention
w/ embedding attention,
w
/
o
e
m
b
e
d
d
i
n
g
a
t
t
e
n
t
i
o
n
w/o \ embedding \ attention
w/o embedding attention)。
w
/
o
e
m
b
e
d
d
i
n
g
w/o \ embedding
w/o embedding结构分别相对于深度卷积和标准卷积提高了1.6%和2.4%的mIoU。这些结果表明,在解码器中捕获全局上下文对于mIoU性能的改进是重要的。虽然w/ embedding方法通过捕获全局上下文优于局部上下文操作,但EFA模块在轻量级模型参数和FLOPs的基础上进一步提高了mIoU的0.8%。
这表明EFA模块更有效地建模了全局上下文。
4.4 Structural Analysis of our All-attention Decoder
解码器,一个
3
−
2
−
1
{3-2-1}
3−2−1结构,是一个具有六个EFT块的层次结构,它将更多的注意力块分配给高级语义特征。表3(b)验证
了解码器结构与三种情况的比较有效性。
2 − 2 − 2 {2-2-2} 2−2−2结构将两个EFT块平均分配给所有解码器阶段。 1 − 2 − 3 {1-2-3} 1−2−3、 1 − 4 − 1 {1-4-1} 1−4−1和 3 − 2 − 1 {3-2-1} 3−2−1分别将更多的EFT块分配给解码器阶段3、2和1。结果 3 − 2 − 1 {3-2-1} 3−2−1结构将更多的注意力分配给更高层次的特征,显示了比 2 − 2 − 2 {2-2-2} 2−2−2、 1 − 2 − 3 {1-2-3} 1−2−3和 1 − 4 − 1 {1-4-1} 1−4−1高出0.8%、1.7%、1.8%的mIoU性能。这些结果表明,将额外的注意力层分配给包含更丰富语义信息的更高层次特征,对于语义分割性能更为有效。
4.5 Effectivness of our ISR in our EDAFormer
表4验证了提出的EDAFormer-T和EDAFormer-B中使用的推理空间降维(ISR)方法的有效性,并经验上找到了最优的减少比率。在训练过程中,EDAFormer以[8,4,2,1]-[1,2,4]的基本设置进行了训练。在推理过程中,尝试仅对解码器应用ISR(即[8,4,2,1]-[2,4,8]),对部分编码器-解码器应用(即[16,8,2,1]-[2,4,8]),以及对整个编码器-解码器应用(即[16,8,4,2]-[2,4,8])。设置[16,8,2,1]-[2,4,8]显示了与准确性下降相比,提高计算效率的最佳性能。与具有基本设置的EDAFormer-T相比,具有最佳设置的EDAFormer-T在ADE20K、Cityscapes和COCO-Stuff上分别减少了计算量的16.1%、37.4%和16.1%。在ADE20K上,性能仅下降了0.2%的mIoU,而在COCO-Stuff和Cityscapes上没有下降。
此外,EDAFormer-B在ADE20K和COCO-Stuff上仅减少了0.1%的mIoU性能,而在Cityscapes上没有性能下降。这些结果表明,ISR方法虽然简单,但显著减少了计算成本,同时几乎没有性能下降。此外,所提方法仅通过在推理时调整减少比率而不进行微调就显示了其惊人的有效性。ISR在不进行微调的情况下是有效的,但对模型进行了40K次迭代训练以进行微调,以进一步补偿在高减少比率[16,8,4,2]-[2,4,8]时的性能下降。结果表明,EDAFormer-T在ADE20K上的mIoU下降了0.2%,而在Cityscapes和COCO-Stuff上的mIoU下降了0.1%。EDAFormer-B在ADE20K和COCO-Stuff上的mIoU下降了0.3%和0.2%,而在Cityscapes上的mIoU没有下降。
4.6 Comparison between the model with and without ISR.
表5(a)比较了带有ISR的w/ ISR与不带ISR的w/o ISR,两者在训练和推断时都使用了相同的减少比例[16,8,2,1]-[2,4,8]。EDAFormer与ISR在减少比例为[8,4,2,1]-[1,2,4]的条件下进行训练,并在推断时调整了比例为[16,8,2,1]-[2,4,8]。尽管推断阶段计算相同,但带有ISR的结果比不带ISR的情况分别对EDAFormer-T和EDAFormer-B的mIoU提高了0.5%。因此,模型w/ISR在训练时考虑了足够的关键和值信息,能够在不考虑足够信息的模型上取得更好的性能,通过在训练时减少关键和值的分辨率来实现。
4.7 Effectiveness of Embedding-Free Structure for ISR
为了验证提出的嵌入无关结构在ISR中的有效性,在所有注意力解码器中的位置采用了带有嵌入注意力的简化模型。还通过将ISR应用于表5(b)中的解码器阶段,与带有嵌入的简化模型进行了比较(即w/embedding)。带有嵌入的结构随着减少比例的增加显示出性能的逐渐下降,减少比例的[8,4,2,1]-[4,8,12]显示出0.8%的mIoU性能下降。然而,所提结构在降维比例为[8,4,2,1]-[3,6,9]时没有性能下降,在降维比例为[8,4,2,1]-[4,8,12]时仅mIoU下降0.1%。这表明,w/o embedding结构与提出的ISR方法相结合是有效的。
4.8 Comparison of Spatial Reduction Methods for ISR
在表6(a)中,对方法在关键值空间降维中的mIoU和推理速度(FPS)进行了实验比较。基于二分匹配的池化方法在每个编码器-解码器阶段都没有mIoU的下降。然而,二分匹配可以减少最多50%的标记(Token),这对应于减少比率 r = 1.4 ( ≈ 2 ) r = 1.4(≈ \sqrt{2}) r=1.4(≈2)。这是因为它将标记分为两组并合并它们。此外,这种方法还由于匹配算法而增加了额外的延迟。因此,尽管二分匹配减少了注意力计算,但它的FPS与没有ISR的情况相似。最大池化显示了0.3%的mIoU下降,重叠池化比平均池化稍微慢一些。因此,采用了平均池化方法来减少标记,这是一种对一般用途简单且在性能上与推理速度最有效的操作。
4.9 Inference Speed Enhancement
表 6 (b) 展示了各种压缩比下的推理速度(FPS)比较。通过不使用任何加速技术,仅使用一块RTX 3090 GPU来测量推理速度。与基线设置相比,应用所提ISR分别在压缩比为[16,8,2,1]-[2,4,8]和[16,8,4,2]-[2,4,8]的情况下,显示出29.4%和47.1%的FPS提升。随着通过增加压缩比减少计算成本,推理速度变得更快。这些结果表明,ISR导致的计算量减少导致了实际推理速度的提升。
4.10 Applying ISR to Various Transformer-based Models
ISR不仅可以应用于EDAFormer,还可以通过在推理过程中使用额外的空间减少来应用于其他基于transformer的模型。为了验证ISR的通用性,在表7中应用了所提方法。基于transformer的主干网络在所提解码器上训练用于语义分割任务。
对于卷积自注意力模型(例如,CvT [62]、MViT [72]和LVT [67]),ISR显著减少了计算量,减少了34.8∼41.6%,性能损失为0.1∼0.3%。所提方法也显示了对基于窗口的自注意力模型(例如,Swin [40]和DaViT[18])、基于空间降维的自注意力模型(例如,PVTv2 [59]和MiT [65])和语义分割模型(例如,SegFormer [65]和FeedFormer [50])的有效计算量的减少,同时性能损失较小。使用交叉注意力解码器的FeedFormer的结果表明,所提方法也适用于交叉注意力机制。这些结果表明,ISR框架可以有效地扩展到各种使用不同注意力方法的基于transformer的架构中,EDAFormer尤其适合应用ISR。
4.11 Visualization of Features
图4可视化了在应用ISR之前和之后EDAFormer-B解码器阶段2的特征和预测图。首先,可视化了表示查询和键之间的相似度分数的注意力得分图。当应用ISR时,注意力得分图的分辨率降低,因为键的分辨率降低。与未应用ISR的相似度分数相比,应用ISR的查询和键之间的相似度分数得到了很好的保持。换句话说,即使减少了键标记而不是注意力得分图,应用ISR也能保持全局区域的语义相似度分数。
其次,比较了在注意力得分图和值之间操作后的输出特征。应用ISR前后的输出特征几乎相同。因此,这些结果表明,即使在对键和值进行空间降维的推理过程中应用了自我注意操作,所获得的信息也得到了保持。第三,当比较预测图时,应用ISR前后的结果几乎相同。这意味着ISR的效果不仅适用于解码器阶段2,还适用于整个EDAFormer网络。
4.12 Qualitative Results
图5对ADE20K、Cityscapes和COCO-Stuff上的分割预测进行了可视化,并与基于嵌入的Transformer模型(即SegFormer [65])进行了比较。EDAFormer在物体边界附近的细节预测得更好。所提模型也比SegFormer更好地分割了大区域(例如,道路、屋顶和卡车)。此外,所提模型比SegFormer更精确地预测了同一类别(例如,沙发)的远距离物体。这表明嵌入无关注结构能够捕获足够全局的空间信息。
五、总结
文中介绍了一种高效的基于Transformer的语义分割模型,即EDAFormer,该模型利用了提出的嵌入无关注模块。嵌入无关注结构可以从建模全局上下文的角度重新考虑自注意力机制。此外,还提出了一个新颖的推理空间降维框架,以提高效率,该框架改变了训练和推理阶段之间的条件。
Appendix
- 附录A展示了EDAFormer和其他基于transformer的最新状态模型的性能-计算比较。
- 附录B提供了注意力块中我们的方法计算分析。
- 附录C展示了具有相同骨干的语义分割解码器结构的公平比较。
- 附录D展示了各种缩减比例下的计算和性能比较。
- 附录 E展示了与其它分割模型的FPS比较。
- 附录F提供了我们嵌入无结构有效性的深入分析。
- 附录G提供了在应用我们的ISR之前和之后特征的额外可视化。
- 附录H提供了与提出的模型和先前最先进的模型在ADE20K、Cityscapes和COCO-Stuff数据集上的定性结果比较。
A Additional Comparison to Transformer-based Models
表5与ADE20K [79]验证集上的额外transformer-based模型进行了比较,因为大多数使用transformer作为主干的文献都包括了ADE20K的结果来展示语义分割性能。展示了EDAFormer-T和EDAFormer-B(w/ISR)在4.7 GFLOPs时的42.1% mIoU和在29.4 GFLOPs时的48.9% mIoU。此外,图6展示了性能-计算曲线,其中包括与轻量transformer-based模型的比较。这些结果表明,EDAFormer在效率和性能上与之前的transformer-based先进模型相比取得了显著的进步。
B Computational Analysis in Attention Block
表9比较了注意力的计算,以分析我们的嵌入免费结构和推理空间降维(ISR)方法的有效性。通过将注意力机制分为查询-键-值嵌入、全局功能、输出投影和其他内容来进行分析。由于所提结构基于空间降维注意力(SRA),其他内容是空间减少操作。嵌入自由结构有效地减少了总MFLOPs的42.6%和参数的60.0%。此外,ISR减少了全局功能的计算。因此,与原始的SRA相比,嵌入自由结构与ISR一起减少了MFLOPs的64.7%和参数的60.0%。
C Comparison of Decoder Structure with Same Backbone
由于主干网对语义分割性能有显著影响,表10使用相同的主干网尝试了其他分割方法,以更公平地比较解码器的结构。
使用一个混合变换器(MiT)结构作为常见的骨干网,它被广泛用作语义分割中的基于transformer的backbone。在解码器中,比较了EDAFormer(即全注意解码器)与之前强大的方法,包括SegFormer [65](即全MLP解码器),FeedFormer [50](即特征查询解码器),SegNeXt [24](即汉解码器),VWFormer [66](即多尺度解码器)。如表10所示,EDAFormer通过建模全局上下文,展示了最有效的计算成本和显著的mIoU性能。
D Various Reduction Ratios for ISR
表11对在Cityscapes数据集上在不同ISR条件下的EDAFormer-T的计算成本(FLOPs)和mIoU性能进行了比较。ISR条件指的是每个编码器阶段和解码器阶段的减少比率。通过增加每个编码器阶段和解码器阶段的比例来展示各种减少比率的结果,与主论文中的表4相比,进行了20种不同条件下的实验。首先,结果表明,在全注意力解码器中,当解码器阶段的比例增加时,mIoU性能没有下降。这些结果表明,使用嵌入式注意力机制的应用ISR是有效的。其次,当1st和2nd编码器阶段的减少比率增加时,mIoU性能得以保持。然而,当3rd和4th编码器阶段的减少比率增加时,性能下降了0.6% (即78.7% → 78.1%)。因此,建议将[16,8,2,1]-[2,4,8]作为ISR的最佳条件,但如果用户需要较低的计算成本,即使性能有所下降,也可以选择性地利用其他条件。
E FPS Comparison with Other Segmentation Models
表12展示了在没有使用任何加速技术的情况下,推理速度的比较。为了公平比较,在使用单个RTX3090 GPU的情况下,测量了整个单张 2048 × 1024 2048×1024 2048×1024像素的城市景观图像的每秒帧数(FPS)。与之前的分割方法相比,我们的方法在获得更高的mIoU分数的同时,实现了FPS的改进。
F Applying EFA to Other Backbones
表13中分析了嵌入无结构在其他主干网络中的有效性。在每个骨干网络中,应用了所提方法并添加了注意块的数量,以确保模型大小公平。与其它两种方法相比,所提方法在相似的参数大小和相同的计算成本下,分别显示了1.5%和0.8%的更高准确率。这些结果表明,所提方法对于其它基于transformer的编码器也同样有效。
G Additional Feature Visualization
图7可视化了嵌入自由注意力(embedding-free attention)的输入-输出特征,注意力得分图,以及应用ISR前后预测。应用了ISR后,注意力区域在注意力得分图中得到了很好的保持,即使关键和值标记(Token)被减少。此外,与没有ISR的情况相比,应用ISR后的输出特征通过利用自注意力机制,其中关键-值标记的数量不影响输入-输出空间结构,从而保留了空间信息。结果,应用了ISR的预测图也与没
有ISR的情况大体相同。
H Additional Qualitative Results
图8评估了EDAFormer和其他当前最先进的模型在ADE20K[79]、Cityscapes [14]和COCO-Stuff [3]上的性能。对于ADE20K和Cityscapes,对比分析了SegFormer [65]和FeedFormer [50],而COCO-Stuff则只与SegFormer进行了比较。与以往的方法相比,我们的EDAFormer不仅在大区域上表现更好,而且在边界区域上也展现了更精确和详细的预测。这些结果表明,EDAFormer,一个基于EFA的编码器-解码器注意结构,是一个既高效又强大的网络,用于语义分割。