更强、更少、更优越的域泛化语义分割——“Rein”-DGSS论文解读

【域泛化语义分割】Stronger, Fewer, & Superior: Harnessing Vision Foundation Models

Stronger, Fewer, & Superior: Harnessing Vision Foundation Models for Domain Generalized Semantic Segmentation


论文链接:https://arxiv.org/pdf/2312.04265
代码链接:https://github.com/w1oves/Rein


摘要

本文首先在域泛化语义分割(Domain Generalized Semantic Segmentation ,DGSS)的背景下评估和利用各种视觉基础模型(VFMs)。在利用更强的预训练模型和更少的可训练参数以获得更好的泛化能力的动机驱动下,本文提出一种鲁棒的微调方法,即" Rein ",以有效地利用VFMs来实现DGSS的参数化。基于一组可训练的token,每个都链接到不同的实例,Rein精确地细化并将特征映射从每一层转发到骨干中的下一层。该过程对单个图像中的不同类别产生不同的细化。随着可训练参数的减少,Rein有效地对DGSS任务的VFMs进行了微调,令人惊讶地超过了全参数微调。在各种环境下的广泛实验表明,Rein明显优于最先进的方法。值得注意的是,只需在冻结的骨干中额外添加1%的可训练参数,Rein在城市场景上的mIoU达到了78.4%,而无需访问任何真实的城市场景数据集。
在这里插入图片描述
图1所示。视觉基础模型(VFMs)是更强大的预训练模型,作为robust的backbone,毫不费力地胜过之前最先进的DGSS,如(a)所示。然而,VFMs的广泛参数使其训练具有挑战性。为解决这个问题,本文提出一种鲁棒的robust方法,以有效地为DGSS利用VFMs。如(b)和©所示,所提出的方法在backbone中以较少的可训练参数实现了优越的泛化性。


论文发表单位:
1.中国科学技术大学:University of Science and Technology of China
2.上海人工智能实验室:Shanghai AI Laboratory

一、引言

研究空白、创新点、主要贡献

之前关于领域广义语义分割(DGSS)的工作 [ 35 , 37 , 39 , 64 , 73 , 76 , 82 ] ^{[35,37,39,64,73,76,82]} [35,37,39,64,73,76,82]专注于在不访问多个未见过的领域数据的情况下提高预测精度,从而实现了真实应用的高度泛化。由于模型是使用规模有限或与目标域图像风格不同的数据集 [ 12 , 65 ] ^{[12,65]} [12,65]进行微调的,因此在之前的DGSS中,已经广泛探索了复杂的数据增强方法 [ 5 , 61 , 83 ] ^{[5,61,83]} [5,61,83]和域不变特征提取策略 [ 10 , 59 , 72 , 77 ] ^{[10,59,72,77]} [10,59,72,77]。当应用于经典backbone时,这些方法导致了增强的泛化能力,例如: VGGNet [ 71 ] ^{[71]} [71],MobileNetV2 [ 68 ] ^{[68]} [68]和ResNet [ 26 ] ^{[26]} [26]

近年来,大规模视觉基础模型(VFMs),如CLIP [ 63 ] ^{[63]} [63]、MAE [ 27 ] ^{[27]} [27]、SAM [ 42 ] ^{[42]} [42]、EVA02 [ 18 , 19 ] ^{[18,19]} [18,19]和DINOv2 [ 58 ] ^{[58]} [58],在各种计算机视觉挑战中显著提高了性能边界。在各种未见过的场景中对这些VFMs进行了显著的概括,出现了两个直观的问题:VFMs在DGSS背景下如何表现?如何为DGSS利用VFMs ?我们尝试回答这些问题:
在这里插入图片描述
在GTAV下对多个vfm和以前的DGSS方法进行性能基准测试→城市景观+ BDD100K
(BDD) + Mapillary (Map)概化设置。在没有专门设计的情况下,冷冻的VFMs表现出更强的性能

  • Stronger。首先评估和比较了各种VFMs与现有的DGSS方法的性能。为了确保公平的比较,在所有情况下,使用来自各种VFMs的图像编码器作为特征提取的backbone。这些backbone与广泛使用的decode head Mask2Former [ 9 ] ^{[9]} [9]相耦合,以生成语义预测。如表1所示,虽然以前的DGSS方法已经展示了值得称道的结果,但与冻结的VFMs相比,它们的效率较低。这一发现清楚地表明了DGSS中VFMs的强大潜力,优于ResNet [ 26 ] ^{[26]} [26]和MobileNetV2等backbone [ 68 ] ^{[68]} [68],从而使VFMs成为该领域有意义的基准

  • Fewer。尽管VFMs表现出了令人印象深刻的泛化能力,但为DGSS任务对它们进行微调是一个挑战。与ImageNet [ 13 ] ^{[13]} [13]相比,DGSS任务中常用的数据集 [ 12 , 65 ] ^{[12,65]} [12,65]的规模要小得多,在这些数据集上对具有大量可训练参数的VFMs进行微调会导致泛化能力有限 [ 36 ] ^{[36]} [36]。为解决这个问题,本文通过使用更少的可训练参数对VFMs进行微调,而不是收集大数据集的困难任务。然而,大多数现有的参数有效的微调策略,对具有较少可训练参数的大规模模型进行微调,主要是为适应大型语言模型 [ 28 , 29 , 46 , 49 , 51 , 80 , 85 ] ^{[28,29,46,49,51,80,85]} [28,29,46,49,51,80,85]或分类网络 [ 7 , 31 ] ^{[7,31]} [7,31]而设计的。这些方法不是为了细化单一图像中不同实例的特征而开发的,因此限制了它们在DGSS上下文中的有效性。

  • Superior。本文提出了一种鲁棒和有效的微调方法,即"Rein"。为DGSS任务量身定制,Rein使用更少的可训练参数来利用更强的VFMs来实现卓越的泛化。在其核心,Rein包含一组随机初始化的token,每个token都直接链接到不同的实例。这些token通过与VFMs特征的点积操作,生成类似注意力的相似性图。该地图使Rein能够对图像中的每个实例进行精确的细化,大大提高了DGSS背景下的VFMs。为了减少可训练参数的数量,在不同层的mlp之间采用共享权重,并通过相乘两个低秩矩阵来设计可学习token。在各种DGSS设置上的广泛实验表明,所提出的Rein在很大程度上优于现有的DGSS方法,可训练参数更少。

综上所述,本文的主要贡献如下:

  • 首先在领域广义语义分割(DGSS)的背景下评估了各种视觉基础模型(VFMs)。在DGSS框架中的广泛实验突出了VFMs令人印象深刻的泛化能力。这些发现证实了VFMs作为更强的backbone,从而在这一领域建立了一个重要的基准。

  • 本文提出一种鲁棒的微调方法"Rein",以有效地利用VFMs。在其核心,Rein由一组可学习的token组成,每个token都直接链接到实例。经过深思熟虑的设计,这种连接使Rein能够在每一层中的实例级细化特征。因此,Rein增强了VFMs在DGSS任务中的能力,在保留预训练知识的同时,用更少的可训练参数实现了这一点。

  • 在各种DGSS设置下的综合实验表明,Rein用更少的可训练参数来有效利用更强的VFMs来实现优越的泛化能力。这种性能在很大程度上超过了现有的DGSS方法。值得注意的是,Rein旨在与现有的普通视觉transformer顺利集成,提高其泛化能力,并使训练更有效

二、最近工作

Domain Generalized Semantic Segmentation

DGSS是致力于增强模型的泛化能力。该领域涉及在一组源域上训练模型,以提高其在清晰和未见过的目标域上的性能。人们提出了各种方法 [ 6 , 14 , 22 , 23 , 30 , 32 − 34 , 48 , 62 , 75 ] ^{[6,14,22,23,30,32-34,48,62,75]} [6,14,22,23,30,3234,48,62,75]来解决这个问题,包括将学习到的特征分为域不变和特定域的组件 [ 72 , 77 ] ^{[72,77]} [72,77],或使用元学习来训练更鲁棒的模型 [ 38 ] ^{[38]} [38]。DGSS中的一个标准场景是从一个城市场景数据集泛化到另一个城市场景数据集,例如,从合成的GTAV [ 65 ] ^{[65]} [65]数据集到真实的城市场景 [ 12 ] ^{[12]} [12]。在这个经典的设置中,某些技术 [ 10 , 59 , 60 ] ^{[10,59,60]} [10,59,60]通过学习特征规范化/白化方案取得了显著的性能,而其他 [ 45 ] ^{[45]} [45]通过特征级风格迁移引入额外数据改善了分割结果。此外,强大的数据增强 [ 5 , 17 , 61 , 83 ] ^{[5,17,61,83]} [5,17,61,83]通常简单而有效地增强模型的鲁棒性。然而,以前的大多数DGSS方法通常使用过时的backbone,如ResNet [ 26 ] ^{[26]} [26], VGGNet [ 71 ] ^{[71]} [71], MobileNetV2 [ 68 ] ^{[68]} [68]和ShuffleNetV2 [ 54 ] ^{[54]} [54],从而使更强的视觉基础模型(VFMs)在DGSS中的有效性相对未被探索。

Vision Foundation Models

基础模型的概念最初是由Bommasani等人在自然语言处理(NLP)领域引入的。 [ 2 ] ^{[2]} [2]将其定义为“以自监督或半监督方式在大规模数据上训练的基础模型,可以适应其他几个下游任务”。虽然像ViT [ 15 ] ^{[15]} [15]和Swin Transformer [ 52 ] ^{[52]} [52]这样的模型已经表现出了出色的性能,但对类似于其NLP对应模型的视觉基础模型(VFM)的追求正在进行中。随着CLIP [ 63 ] ^{[63]} [63]等模型的出现,这种追求取得了重大进展,这些模型通过探索大规模图像文本对的对比学习来学习高质量的视觉表示;MAE [ 27 ] ^{[27]} [27]利用掩码图像建模学习潜在图像表示;SAM [ 42 ] ^{[42]} [42],开发一个可提示的模型,并在广泛的数据集上对其进行预训练,用于分割任务;EVA02 [ 18 , 19 ] ^{[18,19]} [18,19],它将掩码图像建模预训练与CLIP的视觉特征相结合;DINOv2 [ 58 ] ^{[58]} [58]在没有显式监督的情况下,在广泛的、精心策划的数据集上进行预训练。这些VFMs在下游应用中表现出了显著的性能。然而,在DGSS任务的特定背景下,对其性能的专门调查仍未探索。

Parameter-Efficient Fine-tuning

在NLP领域,参数高效微调(PEFT)通过冻结VFMs的大多数参数并微调少数参数取得了显著的成功。已经开发了各种方法,例如BitFit [ 80 ] ^{[80]} [80],它只调整模型的偏差项;对 [ 46 ] ^{[46]} [46]进行提示调优,引入软提示对冻结语言模型进行自适应;调整适配器 [ 28 ] ^{[28]} [28],为每个transformer层添加轻量级模块;值得注意的是LoRA [ 29 ] ^{[29]} [29],它将可训练的秩分解矩阵注入到transformer层中,产生了重大影响。
PEFT方法的应用也正在扩展到计算机视觉领域 [ 16 , 43 ] ^{[16,43]} [16,43],其中著名的例子包括视觉提示调谐(Visual Prompt Tuning, VPT) [ 31 ] ^{[31]} [31],它将提示前置到transformer层的输入序列中 AdaptFormer [ 7 ] ^{[7]} [7],将transformer编码器中的MLP块替换为AdaptMLP;LP-FT [ 43 ] ^{[43]} [43]发现微调可以达到比线性探测分布外更差的精度;以及Prompt-ICM [ 20 ] ^{[20]} [20],将大规模预训练模型应用于机器图像编码任务。与这些方法相比,旨在完善图像中每个实例的特征图,从而在DGSS领域实现优越的性能。

三、方法设计

1. 预备工作:Preliminary

  • 在利用更强的预训练模型和更少的可训练参数以获得更好的泛化能力的动机驱动下,本文选择用减少的参数集对VFMs进行微调。一个简单的想法可能涉及一个较小的decode head;然而,这种方法只是被动地接收来自主干的特征图,缺乏灵活性来有效地自适应一个冻结的主干来生成特定于任务或特定于场景的特征。本文建议在骨干网的层之间嵌入一种名为" Rein "的机制。Rein积极地改进并将特征图从每一层转发到后续的一层。这种方法允许我们更有效地利用VFMs的强大功能,很像使用rein来控制一匹马

  • 给定一个带有参数 Φ M Φ_M ΦM的预训练VFM,由一系列层 L 1 , L 2 , … , L N L_1,L_2,…,L_N L1,L2LN,一个解码头 H H H的参数为 θ h θ_h θh,以及参数为 θ R θ_R θR的Rein策略,优化目标可以表示为:
    在这里插入图片描述
    其中 x i x_i xi y i y_i yi分别表示输入图像及其对应的真实值, N d N_d Nd表示样本总数。 F Φ M , θ R F_{{Φ_M},{θ_R}} FΦM,θR代表应用Rein策略后VFM的正向过程。

2. “Rein”的核心:Core of Rein

在这里插入图片描述
提出的Rein概述。Rein主要由一组低秩可学习token组成,记为T = { T 1 , T 2 , … , T N T_1, T_2,…, T_N T1,T2,TN}。这些标记建立了与不同实例的直接联系,促进了实例级的特征细化。这种机制导致为backbone网络中的每一层生成增强特征图 f f f i ′ ^{'}_i i= f i f_i fi + R e i n ( f i ) Rein({f_i}) Rein(fi)。mlp的所有参数都是层共享的,以减少参数的数量。 M f M_f Mf M Q M_Q MQ M S M_S MS分别是特征模块、查询模块和分割模块。符号 m a x max max & a v g avg avg & l a s t last last指的是等式等式(8)和等式(10)。

  • 为了在不同VFMs之间进行简单实现,选择不修改特定位置的MLP权重,如 [ 7 , 29 ] ^{[7,29]} [7,29]所述。相反,所提出方法专注于细化VFMs中每一层的输出特征图,如图2所示。确切地说,对于第 i i i L i L_i Li产生的特征 f i f_i fi,Rein为下一层生成增强的特征图如下:
    在这里插入图片描述
    其中 f f f i ′ ^{'}_i i = f i f_i fi + Δ f i Δf_i Δfi表示细化后的特征图, x x x是输入图像, E m b e d Embed Embed表示VFMs中的patch嵌入层, n n n表示patch的数量, N N N表示层的数量, c c c f 1 , f 2 , … , f N f_1, f_2,…, f_N f1,f2,fN的维度,请注意层 L 1 , L 2 , … , L N L_1,L_2,…,L_N L1,L2LN保持冻结,本文的重点是训练一个有效的模块Rein,以生成 Δ f i Δf_i Δfi,如下所示:
    在这里插入图片描述
  • 在DGSS的背景下,理想的 Δ f i Δf_i Δfi应该帮助VFMs弥合两种类型的差距。第一个是预训练数据集和目标场景之间的差距,以ImageNet[13]和城市场景图像之间的对比为例 [ 12 , 65 ] ^{[12,65]} [12,65]。第二是预训练和微调之间的任务分歧,如掩码图像建模和语义分割任务之间的差异。
  • 为了建立这种双桥,Rein从一组可学习的token集合 T = T i ∈ R m × c ∣ i ∈ N , 1 ≤ i ≤ N T = {T_i∈R^{m×c} | i∈N,1≤i≤N} T=TiRm×ciN,1iN开始,其中每个token序列Ti被随机初始化, m m m表示 T i T_i Ti的序列长度。Rein冻结了主干,并将从微调数据集中学到的知识嵌入到这些token中,从而弥补了场景与预训练数据集的差距。此外,考虑到语义分割在单幅图像中识别多个实例的本质需求,Rein实现了一种受注意力启发的机制,使VFMs能够对不同实例的特征进行定制调整,从而帮助VFMs适应语义分割和预训练任务之间的差异。具体来说,Rein使用点积操作来生成相似度图 S i S_i Si,它捕获了 f i f_i fi中的特征向量和 T T T中的标记之间的关联:
    在这里插入图片描述
    其中 T i T_i Ti表示第 i i i层的token序列, m m m表示 T i T_i Ti中token的数量。由于 S S S定量评估了各种token和特征向量之间的关系,Rein可以应用softmax函数将每个patch与一个唯一的实例对齐:
    在这里插入图片描述
    利用特征到token的相似度图 S i S_i Si,我们可以使用以下公式初步估计 Δ f i Δf_i Δfi
    在这里插入图片描述
    其中 W T i W_{T_i} WTi b T i b_{T_i} bTi分别表示MLP的权重和偏差。这种MLP使 T i T_i Ti S i S_i Si Δ f ‾ i Δ\overline{f}_i Δfi的计算期间能够跨越不同的特征空间进行转换。另外,Rein可以预先计算 T i × W T i + b T i T_i × W_{T_i} + b_{T_i} Ti×WTi+bTi以减少推理时间。由于softmax函数, S i S_i Si的和等于1;然而,当所有特征都很精确时,这可能会导致不必要的更改。为了避免这种情况, S i ( : , 2 : m ) S_i(:, 2: m) Si(:2:m)用于选择 S i S_i Si的第2~m列, T i ( 2 : m ) T_i(2: m) Ti(2:m)表示选择 T i T_i Ti的第2~m行。这种策略选择允许模型通过为第一个token分配高值并随后丢弃它来避免不必要的调整。这种方法允许 S i S_i Si中每一行的和从0到1变化,从而降低了不适当变化的风险。
  • 为了增强特征调整的灵活性,Rein使用由 W f i W_{f_i} Wfi b f i b_{f_i} bfi组成的MLP来产生最终的特征修改 Δ f i Δf_i Δfi:
    在这里插入图片描述
    得益于这些实例级 Δ f i Δf_i Δfi调整,Rein能够在单个图像中对不同类别产生不同的修改。Rein的细节将在下一节中解释

3. “Rein”的细节:Details of Rein

Linking tokens to instances

  • 在Rein的核心,在token和实例之间建立了隐式但有效的联系,表现出了显著的性能,如第4节所述。通过利用对象查询作为中介进一步加强了这种联系,对象查询是DETR [ 3 ] ^{[3]} [3]风格解码头 [ 8 , 9 , 81 ] ^{[8,9,81]} [8,9,81]中的关键组件。经验证明,这些查询可以与实例建立直接关联。具体来说,通过线性变换从可学习token T i T_i Ti生成分层查询 Q i Q_i Qi在这里插入图片描述
    其中 W Q i W_{Q_i} WQi b Q i b_{Q_i} bQi分别表示权重和偏差, c ′ c^{'} c表示 Q i Q_i Qi的维度。然而,由于VFMs中各种层的数量众多,将多样化的 Q i Q_i Qi转换为单一的查询 Q Q Q带来了计算上的挑战。为了解决这个问题,Rein使用以下公式计算最大成分 Q m a x ∈ R m × c ′ Q_{max}∈R^{m×c^{'}} QmaxRm×c和平均成分 Q a v g ∈ R m × c ′ Q_{avg}∈R^{m×c^{'}} QavgRm×c
    在这里插入图片描述
  • 由此可得 Q Q Q为:
    在这里插入图片描述
    通过将 T T T映射到 Q Q Q,然后连接到实例,Rein通过参数的边际增加实现了性能的提高

Layer-shared MLP weights

为了解决特定层的MLP权重中的参数冗余,特别是等式(6)中的 W T i W_{T_i} WTi、等式(7)中的 W f i W_{f_i} Wfi和等式(8)中的 W Q i W_{Q_i} WQi,它们共同贡献了大量的可训练参数计数,本文采用了一种新的策略。由于可学习 T i T_i Ti能够为每一层产生不同的 Δ f i Δf_i Δfi,本文设计了MLP的角色,主要在骨干网络中每一层的不同特征空间中执行一致的线性变换。为此,我们采用跨层共享MLP权重,如公式所示:
在这里插入图片描述

Low-rank token sequence

由于认识到不同的可学习token之间存在信息重叠的可能性,例如表示汽车前灯和自行车灯的token之间的高度相似性,Rein采用一种策略来生成一个低秩token序列 T T T,如下所示:
在这里插入图片描述
其中 c c c为序列 T i T_i Ti的维数, m m m为序列 T i T_i Ti的长度, r r r为秩, r ≪ c r≪c rc。在这里,矩阵 A A A B B B被构造为低秩矩阵。为了减少推理时间,Rein可以预先计算和存储 t t t。通过实现这种低秩token序列方法,Rein大大减少了参数的数量

三、实验安排

1.实验设置:Settings

Visual Foundation Models

  • 为全面评估DGSS背景下视觉基础模型(VFMs)的影响,分析了5种不同的VFMs,每种VFMs都具有不同的训练策略和数据集。本文选择包括CLIP [ 63 ] ^{[63]} [63],一个语言-图像预训练模型;MAE [ 27 ] ^{[27]} [27],以其掩码预训练方法而闻名;SAM [ 42 ] ^{[42]} [42],利用大规模分割数据集;EVA02 [ 18 , 19 ] ^{[18,19]} [18,19]将CLIP与掩码图像建模相结合;以及DINOv2 [ 58 ] ^{[58]} [58],基于精选数据集的自监督预训练。为了平衡精度和效率,、主要对这些VFMs采用ViT-Large架构,除了SAM,它使用ViT-Huge图像编码器,如其原始论文 [ 42 ] ^{[42]} [42]所述。为VFMs建立了两个基本基线:"Full ",对整个网络进行微调,和"Freeze ",所有骨干参数都是固定的,仅在分割头上进行训练。有关VFMs和PEFT方法的更多细节可在补充材料中找到。

Datasets

在真实数据集(Cityscapes [ 12 ] ^{[12]} [12]、BDD100K [ 78 ] ^{[78]} [78]、Mapillary [ 57 ] ^{[57]} [57])和合成数据集(GTAV [ 65 ] ^{[65]} [65]、Synthia [ 66 ] ^{[66]} [66]、UrbanSyn [ 24 ] ^{[24]} [24])上评估了VFMs和所提出的方法。

  • Cityscapes(记为cityys)是一个自动驾驶数据集,包含2975张训练图像和500张验证图像,每张图像的分辨率为2048 × 1024。
  • BDD100K(简称BDD)和Mapillary(简称Map)分别提供了1000张(1280 × 720)和2000张(1902 × 1080)验证图像。
  • GTAV是一个合成数据集,提供了从游戏中获得的24,966张标记图像。
  • Synthia是一个合成数据集,提供了25000张通过照片真实感渲染创建的图像。
  • UrbanSyn是一个由7539张图像组成的合成数据集。

Implementation details

  • 利用MMSegmentation [ 11 ] ^{[11]} [11]代码库进行实现。为了获得优越的性能,mask2former [ 9 ] ^{[9]} [9]是一种广泛使用的decode head,它与各种作为骨干的VFMs集成在一起。补充材料中详细介绍了其他解码头的附加实验。在训练阶段,使用AdamW优化器[53],将骨干网络的学习率设置为1e-5,解码头和所提出的Rein的学习率设置为1e-4。为了提高训练效率,采用了40000次迭代的配置,批量大小为4,并将图像裁剪为512 × 512的分辨率。该方法只包括基本的数据增强,其次是Mask2Former [ 9 ] ^{[9]} [9]。由于简化了训练配置和减少了可训练参数的数量,Rein可以在12小时内在单个RTX3090Ti GPU上微调DINOv2-Large或EVA02-Large模型,以获得卓越的泛化能力。

2.对比实验:Comparison with State-of-The-Art Methods

  • 在本节中,在3种泛化设置下对5个数据集进行了综合评估:GTAV→citys + BDD + Map、GTAV +
    Synthia→citys + BDD + Map和citys→BDD + Map。Rein对最先进的(SOTA)方法进行了基准测试,这些方法可以分为两组,包括领域广义语义分割(DGSS)方法 [ 5 , 10 , 14 , 30 , 38 , 45 , 59 , 61 , 62 , 74 , 79 , 83 ] ^{[5,10,14,30,38,45,59,61,62,74,79,83]} [5,10,14,30,38,45,59,61,62,74,79,83]和参数高效微调(PEFT)方法 [ 7 , 29 , 31 ] ^{[7,29,31]} [7,29,31]

Investigation of various VFMs

在这里插入图片描述
对VFMs的分析和在GTAV→citys + BDD +地图设置中的控制建议如表1和表2所示。在这种设置中,使用GTAV对模型进行微调,并在Cityscapes、BDD100K和Mapillary上进行评估。请注意,由于decode head中固定且相对较少的可训练参数数量(20.6M),表中显示的可训练参数数量仅集中于骨干和PEFT模块。如表1所示,本文结果表明,frozen VFMs的性能明显优于之前未经专门设计的DGSS方法。此外,如表2所示,全参数微调的VFMs比冻结的VFMs表现出更强的性能。值得注意的是,Rein实现了更优越的泛化能力,与原始主干相比仅多1%的可训练参数,就超过了全部的参数微调。图3给出了定性比较的视觉样本。
在这里插入图片描述
在这里插入图片描述

Comparing Rein with SOTA

在GTAV→citys + BDD + Map设置下,本文提出的Rein与现有的DGSS和PEFT方法进行了综合性能比较,详细结果见表4。由于VFMs固有的鲁棒特征提取能力,通常通过强数据增强或一致性约束来增强泛化能力的DGSS方法(如AdvStyle、PASTA和GTR),并没有表现出显著的性能提升。另一方面,PEFT方法也取得了显著的进展。例如,AdaptFormer在使用EVA02作为骨干时优于“冻结”基线,而VPT在使用DINOv2时比“完全”性能有所提高。采用相同的骨干(DINOv2和EVA02),提出的Rein取得了优越的性能,并超过了之前的DGSS和PEFT方法。
在这里插入图片描述

Real-to-Real generalization of Rein

从一个真实数据集到其他数据集的泛化对于该领域的实际应用至关重要。为此,该文在citys→ACDC、citys→Cityscapes-C和citys→BDD +地图综合设置下进行了实验。如表3和表7所示,当与DINOv2-Large结合使用时,Rein在所有数据集上都表现出了卓越的性能。这强调了Rein在泛化到不同现实世界场景方面的有效性。
在这里插入图片描述

Synthetic-to-real generalization of Rein

如表11所示,在合成的UrbanSyn+GTAV+Synthia数据集上进行训练,Rein在Cityscapes验证集上实现了78.4%的mIoU。通过额外的合成数据和扩散模型(如 [ 1 ] ^{[1]} [1])生成的更高质量的图像,可以进一步改进。这个结果也可以成为数据高效训练的宝贵预训练权重,在1/16的Cityscapes训练集下达到82.5%的mIoU。这对于半监督语义分割来说是一个重要的性能。
在这里插入图片描述

More backbones

将分析扩展到将Rein与卷积网络(如ResNet和ConvNeXt)和更小规模的架构(如DINOv2- S/B)集成。如表8所示,我们的研究结果显示,Rein在不同的骨干上表现出了卓越的性能。
在这里插入图片描述

3.消融实验:Ablation Studies and Analysis

  • 在两种情况下进行了广泛的消融研究:GTAV→citys和GTAV→citys + BDD + Map。

Analysis of the key components

表6致力于彻底检查Rein中每个组件的有效性。在GTAV→city的泛化设置中,依次纳入Rein的不同组成部分,并评估其影响。有趣的是,我们观察到,与"满"相比,“冻结"偶尔对特定类别表现出更好的识别,例如"道路,人行道”。这表明VFMs在微调期间会损失一些预训练知识,而“冻结”有助于预防。同样,所提出方法减轻了这种知识遗忘。此外,所提出方法对19个类别中的大多数都显示出了改进的识别能力。例如,在识别"墙,摩托车,自行车"方面,所提出方法明显优于"完全"和"冻结"基线。
在这里插入图片描述
总的来说,“Rein-core”提高了19个班级的平均表现。此外,“Rein-link”进一步提高了某些物体的精度,包括“汽车,公共汽车,火车,摩托车”,特别是DINOv2。采用层共享MLP权重和低秩token序列有效地减少了可训练参数的数量,并对模型的性能产生积极影响。

Study on token length m

Rein的核心组件是可学习token T ∈ R m × c T∈R^{m×c} TRm×c。我们探索了token序列的不同长度 m m m,范围从25到200。如图4所示, m m m = 100和 m m m = 150的模型都取得了64.3%的较强 m I o U mIoU mIoU。我们最终选择 m m m = 100作为最合适的参数。
在这里插入图片描述

Study on rank r

如表12所示,将注意力转向排名r对模型性能的影响。以DINOv2为骨干,在r = 16和r = 32时观察到最佳结果。因此,与LoRA [ 29 ] ^{[29]} [29]不同,本文的模型选择了一个相对较高的值r = 16。
在这里插入图片描述

Speed, memory, and storage

对于实际应用来说,训练速度、GPU内存使用和模型存储要求至关重要。如表13所示,与“完整”基线相比,提出的Rein提高了训练速度并减少了GPU内存使用。Rein的一个显著优势是,在不同设置下训练的模型可以共享相同的主干参数。这意味着对于不同任务和设置中的switch,我们只能存储和交换rein权重(0.01GB)和head权重(0.08GB),而不是所有参数。
在这里插入图片描述

四、总结

  • 本文提出的鲁棒的微调方法Rein,可以有效地将VFMs用于DGSS。通过更少的可训练参数,Rein显著提高了VFMs的泛化能力,在很大程度上超过了SOTA方法。Rein可以作为现有VFMs的即插即用适配器无缝集成,通过有效的训练提高泛化能力。广泛的实验证明了VFMs在DGSS领域的巨大潜力,验证了所提出的Rein在将VFMs用于DGSS方面的有效性。
  • 这篇文章好难好复杂呀~~~还有好多补充文件!让我看看感兴趣的小伙伴儿多不多?如果感兴趣的人多的话,我就继续更新!
  • 20
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值