论文笔记: Stronger, FeweHarnessing Vision Foundation Models for Domain Generalized Semantic Segmentation

小夏refresh

已于 2024-09-02 10:57:06 修改

阅读量365

点赞数 4

分类专栏：论文语义分割计算机视觉文章标签：深度学习人工智能语义分割领域泛化 DGSS 领域泛化语义分割

于 2024-06-17 11:13:33 首次发布

本文链接：https://blog.csdn.net/c2861024198/article/details/139738478

版权

论文同时被 3 个专栏收录

12 篇文章 0 订阅

订阅专栏

计算机视觉

9 篇文章 0 订阅

订阅专栏

语义分割

2 篇文章 0 订阅

订阅专栏

Stronger, Fewer, & Superior: Harnessing Vision Foundation Models for Domain Generalized Semantic Segmentation

知识补充
- DGSS
Stronger, Fewer, & Superior: Harnessing Vision Foundation Models for Domain Generalized Semantic Segmentation

本人阅读该论文后的论文笔记

知识补充

DGSS

领域泛化语义分割（Domain Generalized Semantic Segmentation，DGSS）

领域泛化(Domain Generalization, DG): 研究的问题是从若干个具有不同数据分布的数据集(领域)中学习一个泛化能力强的模型，以便在未知(unseen)的测试集上取得较好的结果。(研究的问题是如何利用源领域数据训练一个模型，其目的是使得该模型能够泛化到其他不同数据分布的目标领域。)

Stronger, Fewer, & Superior: Harnessing Vision Foundation Models for Domain Generalized Semantic Segmentation

Zhixiang Wei、 Lin Chen、Yi Jin、iaoxiao Ma、ianle Liu、engyang Ling、Ben Wang、Huaian Chen1† Jinjin Zheng
中国科学技术大学、上海AI实验室
Paper: https://arxiv.org/abs/2312.04265
Code: https://github.com/w1oves/Rein

摘要

翻译: 在本文中，我们首先评估和利用领域广义语义分割(Domain Generalized Semantic Segmentation, DGSS)背景下的各种视觉基础模型(Vision Foundation Models, VFMs)。利用更强的预训练模型和更少的可训练参数来获得更好的泛化性，我们引入了一种鲁棒微调方法，即Rein，以参数有效地利用DGSS的VFMs。Rein建立在一组可训练的令牌之上，每个令牌都与不同的实例相关联，它精确地将特征映射从骨干网络的每一层细化并转发到下一层。这个过程在一张图像中为不同的类别产生不同的细化。使用更少的可训练参数，Rein有效地微调了DGSS任务的VFMs，令人惊讶地超过了全参数微调。在各种环境下进行的大量实验表明，Rein明显优于最先进的方法。值得注意的是，在冷冻主干中仅额外增加1%的可训练参数，Rein在不访问任何真实城市场景数据集的情况下，在cityscape上实现了68.1%的mIoU。

评估和利用领域泛化的语义分割(DGSS)背景下的各种视觉基础模型(VFMs)。
引入一种鲁棒微调方法——Rein，以更少的可训练参数有效地利用DGSS的VFMs。
Rein建立在一组可训练的token上，每个token都与不同的实例相关联，能精确地将特征映射从骨干网络的每一层细化并转发到下一层。这个过程在一张图像中为不同的类别产生不同的细化。使Rein使用更好的可训练参数，有效地微调了DGSS任务的VFMs, 并超过了全参数微调。
实验表明，Rein明显优于最先进的方法。在冷冻主干中仅额外增加1%的可训练参数，Rein在不访问任何真实城市场景数据集的情况下，在cityscape上实现了68.1%的mIoU。

引言

之前的工作在领域泛化语义分割中的工作侧重于在多个不可见领域的情况下提高预测精度，而不访问他们的数据，从而使实际应用高泛化。
由于模型使用数据集进行微调，这些数据集的规模有限，或者图像风格与目标与不同，复杂数据增强方法和域不变特征提取策略在以前的DGSS中得到了广泛的探索。这些网络在应用于经典骨干时，会产生了增强泛化。
大规模的视觉基础模型在各种计算机视觉挑战中显著提高了性能。
鉴于这些VFMs在各种不可见的场景中的显著概括，将回答下面两个问题:VFMs在DGSS环境中表现如何？VFMs如何应用到DGSS中？
- Stronger:
  - 评估和比较各种VFMs与现有DGSS方法的性能
  - 使用各种VFMs的图像编码器作为所有情况下的特征提取backbone，这些backbone与广泛使用的解码头相结合，即mask2Former，以生成语义预测。
  - 以前的DGSS方法与冻结的VFMs相比，效果更差。这一发现证明了VFMs在DGSS中的强大潜力由于传统的backbone，从而建立了VFMs作为该领域的一个有意义的基准
- Fewer:
  - 尽管VFMs显示出了令人印象深刻的泛化能力，但针对DGSS任务对它们进行微调是一个挑战。
  - 与ImageNet相比，DGSS任务中常用的数据集的规模要小得多，在这些数据集上使用大量的可训练参数进行微调，导致有限的通用性。为了解决该问题，使用更少的可训练参数来微调VFMs。
  - 然而，大多数现有的参数高效微调策略，即微调可训练参数较少的大规模模型，主要为适应大型语言模型或分类网络而设计的。这些方法在细化单个图像中不同实例的特征时往往缺乏精度，因此限制了他们在DGSS上下文中的有效性。
- Superior:
  - 引入了一种鲁棒和高效的微调方法，即Rein。
  - Rein为DGSS任务量身定制，使用更少的可训练参数来利用更强的VFMs来实现更好地泛化。
  - 在其核心上，Rein包括一组随机初始化的token，每个令牌直接链接到不同的实例
  - 这些token通过与具有VFMs特征进行点乘操作，生成一个类似注意力的相似图。该映射使Rein能够针对图像中的每个实例执行定制的精确细化，显著提高了DGSS上下文中的VFMs。
  - 为了减少可训练参数的数量，在不同层的MLP之间使用共享权重，并通过将两个低秩矩阵相乘来设计可学习的token
  - 在各种DGSS设置上进行的大量实验表明，Rein在较少的可训练参数下大大优于现有DGSS方法。
文章贡献
1. 首次在DGSS的背景下评估了各种视觉基础模型(VFMs)。在DGSS框架中进行的广泛实验突出了VFMs令人深刻的泛化能力。研究结果证实了VFMs作为更强的backbone, 从而在这一领域建立了一个重要的基准。
2. 提出了一种鲁棒的微调方法，即Rein，有效利用VFMs的参数。在其核心上，Rein由一组可学习的token组成，每个token都直接链接到不同的实例。这种链接使Rein能够在每个backbone层的实例高度上细化特征映射。因此，Rein增强了VFMs再DGSS任务中的能力，在保留预训练知识的同时，以更少的可训练参数来实现这一点。
3. 在不同的DGSS设置下进行的综合实验表明，Rein使用了更少的可训练参数来有效地利用更强的VFMs来实现优越的通用性。这种性能大大超过了现有的DGSS方法。Rein的设计是为了与现有普通visual transformer顺利集成，提高其泛化能力，使训练更有效。

Methods

Preliminary(准备工作)

动机: 利用更强的预训练模型和更少的可训练参数来获得优越的泛化性。

本文选择使用一个简化的参数集来微调VFM。一个简单的方法可能涉及一个更小的解码头；然而，这种方法只是作为来自backbone的特征映射的被动接收器。缺乏有效地调整冻结的backbone以生成特定任务或特定场景的特征的灵活性。相反，本文建议在backbone中的层之间嵌入一种名为Rein的机制。Rein积极地细化并将特征映射从每一层转发到后一层。这种方法允许我们更有效地利用VFM的强大功能。

给定一个参数为 $\Phi_M$ 的预训练CFM, 包括一些列层 $L_1, L_2, ..., L_N$ , 一个参数为 $\theta_h$ 的解码头 $\mathcal{H}$ 以及参数为 $\theta_r$ , 优化目标可以写成:
$\arg\min_{\theta_R,\theta_h}\sum^{N_d}_{i=1}Loss(\mathcal{H}_{\theta_h}(\mathcal{F}_{\Phi_M,\theta_R}(x_i)), y_i),$
其中, $x_i$ 和 $y_i$ 分别表示输入图像及其对应的地面真实值(corresponding ground truth), $N_d$ 表示输入的数据集的总数, $\mathcal{F}_{\Phi_M, \theta_r}$ 表示应用Rein策略后VFM的正向过程。

Core of Rein(Rein的核心)

rein

为了在不同的VFM之间简单实现，本文选择不在[5, 21]中描述的特定位置修改MLP权重。相反，本文的方法侧重于细化VFM中每一层的输出特征映射，如图所示。准确地说，对于第i层 $L_i$ 产生的特征 $f_i$ , Rein为下一层生成增强的特征图如下:
$\begin{aligned} f_1 &=L_1(Embed(x)),&f_1\in \mathbb{R}^{n\times c}\\ f_{i+1} &= L_{i+1}(f_i+ \Delta f_i),&i=1,2,\dots,N-1\\ f_{out}&=f_N+\Delta f_N, \end{aligned}$
其中, $f'_i=f_i+\Delta f_i$ 表示细化的特征图, $x$ 为输入图像, $E mb e d$ 表示VFMs中的patch嵌入层， $n$ 表示patch的数量, $c$ 为 $f_1, f_2, \dots,f_N$ 的维数。注意，层 $L_1, L_2,\dots, L_N$ 依旧保持冻结。我们的重点是训练一个有效的模块Rein, 来生成 $\Delta f_i$ :
$\Delta f_i=Rein(f_i)\quad \Delta f_i=\in \mathbb{R}^{n\times c}, i=1,2,\dots,N$

在DGSS的背景下，一个理想的 $\Delta f_i$ 应该帮助VFMs来弥补两种类型的差距。

训练前的数据集和目标场景之间的场景差距，例如ImageNet和urban-scene images(城市场景图像)
预训练和微调之间的任务差距，如mask图像建模和语义分割任务之间的差异

为了搭建这两个桥梁，Rein从一组可学习的token $T=\{T_i\in \mathbb{R}^{m\times c} | i\in \mathbb{N}, 1\leq i \leq N\}$ , 其中每个token序列 $T_i$ 被随机初始化， $m$ 表示 $T_i$ 的序列长度。

Rein冻结了主干，并将从微调数据集学习到的知识嵌入到这些标记中，从而弥补了场景中相对于训练前数据集的差距。此外，考虑到语义分割在单个图像中识别多个实例的基本需要，Rein实现了一种注意力激发机制，是VFMs能够对不同实例的特征进行实例的调整，从而帮助vfm适应语义分割和训练前的任务之间的差异。具体地说，Rein使用了一个点积操作来生成一个相似度映射 $S_i$ , 它捕获了 $f_i$ 中的特征向量和 $T$ 中的token之间的关联:
$S_i=f_i\times T^T_i\quad S_i\in \mathbb{R}^{n\times m}$
其中, $T_i$ 表示第 $i$ 层token, $m$ 表示 $T_i$ 中token的数量。当 $S$ 定量地评估各种标记和特征向量之间的关系时，Rein可以应用一个softmax函数来将每个patch与一个位移的实例对齐:
$S_i=Softmax(\frac{f_i\times T^T_i}{\sqrt{c}})$
利用特征到标记的相似度映射 $S_i$ , 可以使用一下以下公式初步估算 $\Delta f_i$ :
$\Delta\bar{f_i}=S_i(:,2:m)\times[T_i(2:m)\times W_{T_i}+b_{T_i}]$
其中, $W_{T_i}$ 和 $b_{T_i}$ 分别表示一个MLP的权重和偏差。该MLP允许在计算 $S_i$ 和 $\Delta \bar{f_i}$ 的过程中， $T_i$ 在不同的特征空间上进行变换。Rein还可以预算计算 $T_i\times W_{T_i}+b_{T_i}$ , 以减少推理时间。值得注意的是, $S_i(:, 2:m)$ 选择 $S_i$ 的第2到 $m$ 列，而 $T_i(2:m)$ 表示 $T_i$ 的第2到 $m$ 行。这种选择在处理在 $T_i$ 可能没有相应token的具有挑战性的样例时特别有用。在这些情况下， $S_i$ 每一行的相似度总和仍为1，这可能导致错误的修改。为了解决这一点，Rein排除了 $T_i$ 的第一个标记和 $S_i$ 的第一列，使 $S_i$ 的每一行的和都在0和1之间，从而减少了不适当改变的风险。

为了增强调整特征的灵活性，Rein利用了一个由 $W_{f_i}$ 和 $b_{f_i}$ 组成的MLP来产生最终的特征修改 $\Delta f_i$
$\Delta f_i=(\Delta \bar{f_i} + f_i)\times W_{f_i}+b_{f_i}$
得益于这些实例级的 $\Delta f_i$ 的调整，Rein能够在单个图像中为不同的类别生成不同的修改。

Details of Rein(Rein的细节)

Linking tokens to instances(将token链接到实例)

通过使用DETR风格解码头中的关键组件object queries作为媒介，进一步加强了链接。具体的说，通过线性变换从可学习的token $T_i$ 中生成层架queries $Q_i$ :
$Q_i=T_i\times W_{Q_i}+b_{Q_i}, \quad Q_i\in\mathbb{R}^{m\times c'}$
其中, $W_{Q_i}$ 和 $b_{Q_i}$ 分别表示权重和偏差, $c^{'}$ 表示 $Q_i$ 的维度。然而，由于VFMs中大量不同层产生的复杂性，将不同的 $Q_i$ 转换为单一的query $Q$ , 给计算带来了挑战。为了解决这个问题，Rein计算了最大分量 $Q_{max}\in\mathbb{R}^{m\times c'}$ 和平均分量 $Q_{avg}\in\mathbb{R}^{m\times c'}$ , 计算公式如下:
$\begin{aligned} Q_{max}(j,k)&=\max_{i=1,2,\dots,N}Q_i(j,k),\\ Q_{avg}(j, k)&=\frac1N\sum^{N}_{i=1}Q_i(j,k) \end{aligned}$
随后， $Q$ 被推到出:
$Q=Concat([Q_{max}, Q_{avg}, Q_N])\times W_q+b_Q$
通过将 $T$ 映射到 $Q$ 上， $Q$ 随后链接到实例，Rein通过参数的边缘增长实现了更强的性能。

Layer-shared MLP weights(层共享的MLP权重)

为了解决特定层MLP权重中参数的冗余问题，特别是 $W_{T_i}$ 、 $W_{f_i}$ 和 $W_{Q_i}$ , 这共同提供了大量的可训练参数，我们采用了一种新的策略。由于可学习的 $T_i$ 能够为每一层产生不同的 $\Delta f_i$ , 我们设计MLP的角色主要是主干内的每一层的不同特征空间之间执行一致的线性转换。为此，采用了跨层共享的MLP权重，如公式所示:
$\begin{aligned} [W_{T_1}, b_{T_1}]&=[W_{T_2}, b_{T_2}]&=\dots&=[W_{T_N}, b_{T_N}]\\ [W_{f_1}, b_{f_1}]&=[W_{f_2}, b_{f_2}]&=\dots&=[W_{f_N}, b_{f_N}]\\ [W_{Q_1}, b_{Q_1}]&=[W_{Q_2}, b_{Q_2}]&=\dots&=[W_{Q_N}, b_{Q_N}] \end{aligned}$

Low-rank token sequence(低秩token序列)

考虑到不同可学习的token之间的信息重叠的可能性，例如代表汽车前灯和自行车前灯的token之间的高度相似性，Rein采用了生成低秩token序列 $T$ 的策略:
$T_i=A_i\times B_i, \quad A\in\mathbb{R}^{m\times r}, B\in\mathbb{R}^{r\times c}$
其中, $c$ 表示 $T_i$ 的维数， $m$ 为序列 $T_i$ 的长度, $r$ 表示秩, $r\ll c$ 。矩阵 $A$ 和矩阵 $B$ 被构造为低秩矩阵。为了减少推理时间，Rein可以预先计算和存储 $T$ 。通过实现这种低秩标记序列方法，Rein显著减少了参数的数量。

实验

Settings

Visual Foundation Models(视觉基础模型)

为了彻底评估视觉基础模型(VFMs)在DGSS背景下的影响，分析了五中不同的VFMs, 每个模型都有不同的训练策略和数据集。主要包括:

CLIP
MAE
SAM
EVA02
DINOv2

为了平衡精度和效率，本文对这些VFMs采用了Vit-Large架构，除了SAM, 它使用了一个Vit-Huge图像编码器(如其原始论文所述)。本文对VFMs建立了两个基本的极限:

Full: 对整个网络进行微调
Freeze: 其中所有的backbone参数都是固定的，只在分割头部分进行训练。

Datasets

本文评估了VFMs和提出的方法在真实世界数据集(Cityscapes、BDD100K和Mapillary)和合成数据集(GTAV和Synthia)。

Cityscaps(Citys): 自动驾驶数据集，包含2975张训练图像和500张验证图像，每个图像的分辨率是 $2048\times 1024$
DBB100K(BDD)和Mapilary(Map): 分别包含1000张( $1280\times 720$ )和2000张( $1902\times1080$ )验证数据图像

Implementation details(实施细节)

本文利用MMSegmentation库来实现相关工作。为了获得优越的性能，使用mask2former作为分割头与各种作为backbone的VFMs集成。设计其他解码头的实验在补充材料中详细说明。在训练阶段，使用AdamW优化器，将backbone的学习率设置为1e-5，解码头的学习率设置为1e-4。为了实现高效地训练过程，使用了40000次的迭代配置，batch size设置为4，裁剪图像的分辨率为 $512\times512$ 。使用的方法只包括基本的数据增强，遵循Mask2Former。由于简化的训练配置和较少的可训练参数数量，Rein可以在单个RTX 3090Ti GPU上微调像DINOv2-Large和EVA02-Large这样的大模型来获得优越的泛化能力。

Comparison with State-of-The-Art Methods(与最先进方法的比较)

本文在三个泛化设置中总和评估了超过五个数据集:

$GTAV\to Citys+BDD+Map$
$GTAV+Synthia\to Citys+BDD+Map$
$\to BDD+Map$

Rein以最先进的方法为基准，该方法分为两组，包括DGSS方法和参数高效微调(PEFT)方法。

Investigation and comparison of various VFMs(各种VFMs的调查和比较)

$GTAV\to Citys+BDD+Map$ 的结果:
在此设置中，使用GTAV对模型进行了微调，并在Cityscapes、BDD100K和Mapillary上进行了评估。由于解码头的可训练参数数量较少(20.6M), 表中给出的可训练参数的计数仅集中在backbone和PEFT模块上。
ex1
ex2

表1表明冻结的VFMs明显优于以前没有专门设计的DGSS方法。表2表明具有完全参数微调的VFMs相对于冻结对应的VFMs表现出更高的性能。值得注意的是, Rein甚至实现了更优越的泛化能力，与原始backbone相比，仅超过了额外1%的可训练参数的全参数微调。

定性比较的可视化样本:
ex3

Comparing Rein with SOTA on identical backbones(比较Rein和SOTA在相同的backbone上)

在 $GTAV\to Citys+BDD+Map$ 设置下，将所提出的Rein与现有的DGSS和PEFT方法进行了全面的性能比较:
由于VFMs中固有的强大的特征提取能力，DGSS方法通常通过强数据增强或一致性约束(如AdvStyle, PASTA和GTR)来增强通用性，但并没有表现出显著的性能改进。另一方面，PEFT方法已经取得了显著的进步。采用相同的backbone(DINOv2和EVA02), 所提出的Rein取得了优越的性能，超过了以前的DGSS和PEFT

ex4

Multi-source generalization(多元泛化)

比较 $KaTeX parse error: Undefined control sequence: \toCitys at position 13: GTAV+Synthia\̲t̲o̲C̲i̲t̲y̲s̲+BDD+Map$ 设置下的结果:
使用GTAV和Synthia数据集细化网络，并在Cityscapes、BDD100K和Mapillary上进行了测试。使用两个VFMs——EVA02和DINOv2的Rein性能。结果表明Rein在平均mIoU上显著超过了现有的DGSS方法(从45.9%到65.2%)
ex5

Cityscapes-to-other datasets generalization(Cityscapes到其他数据集的泛化)

从一个真实数据集到其他数据集的泛化对该领域的实际应用至关重要。为此，本文在 $Citys\to BDD+Map$ 设置下进行了实验。在这种情况下，当Rein与DINOv2-Large结合时，在所有数据集上都显示了优越的性能。这强调了Rein在各个版本中推广到不同的现实世界场景的有效性。
ex6

Ablation Studies and Analysis(消融研究和分析)

本文在两种情况下进行了广泛的消融研究: $GTAV\to Citys$ 和 $GTAV\to Citys+BDD+Map$ 。在所有的实验中，Rein都应用于两个VFMs, 即EVA02和DINOv2。

Analysis of the key components(关键部件的分析)

Rein中每个组件的有效性:
重点关注它们如何影响不同语义类别中的识别性能。在 $GTAV\to Citys$ 的泛化设置中依次合并Rein的不同组件，并评估他们在应用于两个VFMs时对提高性能的影响。有趣的是，与"Full"相比，“Freeze"偶尔会对特定类别表现出更好的识别，例如"道路”、“人行道”。这表明，VFMs在微调过程中失去了一些训练前的知识，而"Freeze"有助于预防。同样的，本文的方法还提高了对19个类别中大多数的识别能力。例如，在识别"墙"、“摩托车”、“自行车"方面，本文的方法显著优于"Full"和"Freeze”。
ex7

总的来说，"Rein-core"提高了19个类别的平均性能。"Rein-link"进一步提高了对某些物体的准确性，特别是当DINOv2作为backbone时，采用层共享MLP权重的策略可以有效地将可训练参数的数量从59.33M减少到5.02M。最后，低秩标记序列的加入不仅进一步减少了可训练参数的数量，而且对模型的性能有了积极的影响。

Study on token length $m$ (关于token长度 $m$ 的研究)

Rein的核心组件是一组可学习的token $T\in \mathbb{R}^{m\times c}$ 。本文探索了token序列的不同长度 $m$ ，范围从25到200。
ex8

使用 $m = 100$ 和 $m = 150$ 的模型mIoU均为64.3%, 使用,=100的模型使用EVA02的最佳IoU为63.6%。最终，选择了m=100作为最合适的参数，这在后续的实验中得到了一致的应用。

Study on rank $r$ (关于秩 $r$ 的研究)

秩 $r$ 对模型性能的影响
当以EVA02作为backbone时，在 $r = 16$ 时性能达到峰值。同样，以DINOv2作为backbone时，在 $r = 16$ 和 $r = 32$ 处观察到最佳结果。因此，与LoRa不同，本文选择了相对较高的 $r = 16$
ex9

Speed, memory, and storage.(速度、内存和存储)

训练速度、GPU内存使用情况和存储需求:
较低的训练速度和较少的GPU内存使用有利于新方法的开发和新任务的适应。与"Full"相比, Rein提高了训练速度，并减少了GPU内存的使用。此外，Rein仅略微增加了0.01GB的存储需求。Rein的一个显著优点是，在不同设置下训练的模型可以共享相同的backbone参数。这意味着，对于不同的任务和设置进行部署，只需要交换rein权重(0.01GB)和head权重(0.08GB), 而不是交换所有参数。
ex10

Conclusion(总结)

在DGSS的背景下评估和利用视觉基础模型(VFMs)。利用更强的预训练模型和更少的可训练参数来提高泛化性。
首先研究了在DGSS设置下的性能，随后引入了一种鲁棒的微调方法，即Rein，以参数有效地利用DGSS的VFMs。通过更少的额外可训练参数显著增强了VFMs的泛化能力，大大优于SOTA方法。
Rein可以无缝集成为现有的VFMs的即插即用适配器，提高泛化，同时提高训练效率。
在不同环境下的广泛实验证明了VFMs在DGSS领域的巨大潜力，验证了Rein的参数有效利用在DGSS方面的效果。