VIDA: HOMEOSTATIC VISUAL DOMAIN ADAPTER FOR CONTINUAL TEST TIME ADAPTATION--论文笔记

论文笔记

资料

1.代码地址

https://github.com/yangsenqiao/vida

2.论文地址

https://arxiv.org/pdf/2306.04344v3

3.数据集地址

论文摘要的翻译

针对实际机器系统运行在非平稳环境中的特点,提出了连续测试时间自适应(CTTA)任务,使预先训练的模型能够适应不断变化的目标域。目前,已有的方法主要集中在基于模型的自适应,旨在利用自训练的方式来提取目标域的知识。然而,在动态数据分布下,伪标签可能存在噪声,更新后的模型参数不可靠,导致在连续的自适应过程中误差累积和灾难性遗忘。为了应对这些挑战并保持模型的可塑性,我们设计了一个用于CTTA的可视化领域适配器(VIDA),显式地处理领域特定知识和领域共享知识。具体地说,我们首先全面地研究了具有可训练高阶或低阶嵌入空间的适配器的不同域表示。然后,我们将VIDAS注入到预先训练的模型中,该模型分别利用高阶和低阶特征来适应当前领域的分布和维护持续的领域共享知识。为了更有效地利用低等级和高等级的ViDA,我们进一步提出了一种自适应地结合每个ViDA的不同知识的动态平衡知识分配(HKA)策略。在四个广泛使用的基准测试上进行的大量实验表明,我们提出的方法在分类和分割CTTA任务上都取得了最好的性能。请注意,我们的方法可以被视为一种新的大规模模型的转换范例,在适应不断变化的分布方面提供了有希望的结果。

1背景

为了解决这个问题,提出了连续测试时间适应(CTTA),它解决了一系列不同的分布随时间变化的变化,而不是像TTA那样只有一个变化。此外,CTTA还包括有效的持续调整基础模型,以适应持续的下游任务或分布。
现有的CTTA工作主要采用基于模型或基于提示的方法来同时提取目标领域特定知识和领域共享知识。然而,对于基于模型的方法,噪声伪标签仍然是不可靠的,在避免误差累积方面发挥的作用有限,特别是在具有显著分布差距的情况下。同时,基于提示的方法在利用具有有限可训练参数的软提示来学习长期领域共享知识和防止灾难性遗忘方面面临困难。
为了解决这些限制并保持模型的可塑性,我们设计了一个自平衡视觉领域适配器(ViDA),如图1(a)所示,它在连续的适应过程中显式地管理领域特定和领域共享的知识。具体地说,我们首先仔细研究了在中间层具有可训练的高维或低维嵌入空间的VIDAS的不同领域表示。如图1(b)所示,我们的观察表明,具有低等级嵌入空间的VIDA专注于与任务相关的特征表征,在不同的领域显示出平凡的分布距离,并且忽略了动态分布转移的影响。相反,具有高等级特征的VIDA更专注于提取特定领域的知识,不同目标领域的特征分布表现出明显的差异。我们在3.1节和附录B中提供了对动机的详细解释。
在这里插入图片描述

这一观察结果促使我们将VIDAS注入预先训练的模型中,该模型利用高维和低维特征的不同领域表示来避免错误累积和灾难性遗忘。为了更好地提取不同领域的知识,我们进一步提出了一种自平衡知识分配(HKA)策略来动态融合来自低等级和高等级VIDA的知识。基于数据分布,HKA自适应地调整不同特征表示的平衡,包括原始模型、特定领域和与任务相关的特征。在推理过程中,低阶和高阶VIDA可以通过重新参数化投影到预先训练的模型中,这确保了不会增加额外的参数,并保持了模型的可塑性。

2论文的创新点

  • 我们研究了具有高阶和低阶特征的适配器的不同领域表示。然后,我们设计了一个视域适配器(VIDA),显式地管理领域相关知识和任务相关知识,分别解决错误累积和灾难性遗忘问题。
  • 考虑到每个目标样本的分布偏移程度的不同,我们进一步提出了一种自平衡知识分配(HKA)策略,动态地融合来自低阶和高阶的VIDA的知识,从而增强了ViDA的独特领域表示。
  • 通过在分类和分割CTTA四个基准数据集上的实验,我们提出的方法优于大多数最先进的方法。
  • 我们的CTTA方法为大规模模型提供了一种新的转换范例,在适应不断变化的分布方面提供了令人振奋的结果。同时,我们通过提出的自平衡ViDA使源模型具有领域泛化能力,实现了对看不见的目标领域的显著改进。

3 论文方法的概述

  • 开始阶段
    在连续测试时间适配中,我们在源域 D S = ( Y S , X S ) D_S=(Y_S,X_S) DS=(YSXS)上预先训练模型 q θ ( y ∣ x ) q_θ(y|x) qθ(yx),并将其适配到多个目标域 D T i = ( X T i ) i = 1 n D_{T_i}={(X_{T_i})}^n_{i=1} DTi=(XTi)i=1n,其中n表示连续目标数据集的规模。整个过程不能访问任何源域数据,只能访问一次目标域数据。目标结构域即KaTeX parse error: Expected 'EOF', got '}' at position 30: …2}、...、D_{T_n})}̲的分布随时间不断变化。我们的目标是使预先训练的模型适应于目标领域,并保持模型对所看到的领域分布的感知能力。
  • 总体框架
    根据教师预测往往比标准模型更稳健的见解,我们利用师生框架来确保持续的领域适应过程中的稳定性,这也与以前的CTTA工作进行了公平的比较。我们方法的总体框架和细节如图2所示。
    在这里插入图片描述

3.1 启发

CTTA遇到了重大挑战,主要是由于错误积累和灾难性遗忘。同时,具有不同维度中间层特征的适配器证明它应对这些挑战是有效的。这鼓励我们更进一步,证明CTTA中使用低级别适配器和高级别适配器的基本原则是正确的。

  • Low-rank adapter
    我们关于适配器在减轻灾难性遗忘中的有效性的假设是,它们的低阶嵌入空间表征起着至关重要的作用。为了进一步探索这一点,我们对第三个变压器块进行了t-SNE分布研究(Van der Maten&Hinton,2008),以分析四个目标域(ACDC数据集(Sakaridis等人,2021))上的特征分布。结果如图1(b)所示。我们的分析表明,低等级适配器在不同的目标领域表现出相对一致的分布,这表明其低等级嵌入空间可以有效地忽略动态分布变化的影响,并对领域共享知识的提取进行优先排序。
    在这里插入图片描述
    此外,我们采用了Ben-David提出的域距离定义,并在先前的域转移研究的基础上,使用H-发散度量来评估不同目标域上的适配器的域表示。两个分布 D S D_S DS D T i D_{T_i} DTi之间的差异距离可以计算为: d H ( D S , D T i ) = 2 sup ⁡ D ∼ H ∣ Pr ⁡ x ∼ D S [ D ( x ) = 1 ] − Pr ⁡ x ∼ D T i [ D ( x ) = 1 ] ∣ d_{\mathcal{H}}(D_{S},D_{T_{i}})=2\operatorname*{sup}_{\mathcal{D}\sim\mathcal{H}}|\operatorname*{Pr}_{x\sim D_{S}}[\mathcal{D}(x)=1]-\operatorname*{Pr}_{x\sim D_{T_{i}}}[\mathcal{D}(x)=1]| dH(DS,DTi)=2DHsupxDSPr[D(x)=1]xDTiPr[D(x)=1]其中 H \mathcal {H} H表示假设空间, D \mathcal {D} D表示鉴别器。我们采用相邻区域之间的Jensen-Shannon(JS)散度作为H-散度的近似,因为它已被证明成功地区分了区域。如果域间分歧相对较小,则可以证明特征表示是一致的,受跨域迁移的影响较小。我们比较了通过仅使用源模型、加入低阶适配器、加入高阶适配器以及组合低阶和高阶适配器所获得的JS值,如图3(A)所示。我们的结果表明,与原始源模型和高阶适配器相比,低阶适配器生成的特征表示表现出较低的发散度,特别是当处理较晚的目标域或相邻域之间的显著域转移时(即,目标域9-13)。这一结果同时证明了低阶适配器在不断变化的环境中学习长期领域共享知识的能力。
    在这里插入图片描述
    为了为这一直觉提供更清晰的证据,我们通过在ImageNet-to-ImageNet-C CTTA上纳入类激活映射(CAM)的定性分析来扩展我们的分析。如图4所示,我们展示了不同目标域的特征表示,包括高斯噪声和Snow噪声。我们观察到,低阶ViDA倾向于将更多的权重放在前景样本上,而倾向于忽略背景噪声的变化。这表明,低级别的VIDA关注的是拥有更一般和与任务相关的信息的点
    在这里插入图片描述
  • High-rank adapter
    对于具有高阶特征的适配器的域表示,我们认为它更适合于解决连续自适应过程中的误差累积。
    如图1(B)所示,我们通过t-SNE分析不同域之间的特征分布来验证这一点,并观察到域之间存在明显的差异。该分布在单个域中实现了更好的聚合。这表明,级别较高的适配器更好地掌握了目标域数据分布。受k-Means提出的类内相异度的启发,我们使用归一化类内发散度来进一步验证CIFAR10C中高阶适配器的域表示。在给定的领域中,如果每个类别的类内分歧较小,则表明该模型对当前分布有更好的理解。
    在这里插入图片描述

如图3(B)所示,高等级适配器被发现降低了几乎所有领域的类内分歧,表明它能够更好地适应当前领域的分布,并在连续的目标领域中提取特定于领域的知识。为了更直观地验证,我们结合了CAM的可视化进行了定性分析。相反,高等级的VIDA表现出相反的模式,如图4所示。它将更多的注意力分配到以显著的域移为特征的位置,包括整个输入图像。这种行为与高级别分支适合全局信息并主要从目标领域数据中提取特定领域知识的倾向相一致。

在这里插入图片描述
总之,低阶VIDA的结构减少了特征冗余,从而导致CTTA过程中的不匹配状态。因此,它倾向于获取连续目标领域的一般信息,提取与任务相关的知识来缓解灾难性遗忘。相比之下,高阶的VIDA采用了更符合目标数据分布的高维特征表示,从而专注于学习特定领域的知识以防止错误积累。我们在附录B中提供了额外的理由和专门设计的实验。

3.2 VISUAL DOMAIN ADAPTER

基于上述观察,我们在源预训练模型中引入了高阶和低阶视觉领域适配器(VIDAS),旨在同时适应当前领域的分布,并保持CTTA中持续的领域共享知识。

  • 架构
    将VIDAS注入到预先训练的模型中的设计原理简单而有效,如图2(b)所示。在这里插入图片描述
    可以看到,有三个子分支,中间分支中的线性(或Conv)层起源于源网络,而右分支和左分支是瓶颈结构,分别表示高级别VIDA和低级别VIDA,具体地,右分支(高阶)包含参数为 W u p h ∈ R d × d h W^h_{up}\in R^{d×d_h} WuphRd×dh的上投影层、参数为 W d o w n h ∈ R d h × d W^h_{down}\in R^{d_h×d} WdownhRdh×d的下投影层,其中 d h d_h dh(例如, d h d_h dh=128)是高等级特征的中间维度,并且满足 d h d_h dh≥d。当原始模型为transformer结构时,采用线性层作为投影层;当原始模型为卷积网络时,采用1×1卷积作为投影层。相反,左侧低等级分支首先向下注入具有参数W1的下投影层 W d o w n l ∈ R d × d l W^l_{down}\in R^{d×d^l} WdownlRd×dl,然后放置具有参数 W u p l ∈ R d l × d W^l_{up}\in R^{d_l×d} WuplRdl×d的向上投影层,其中 d l d_l dl(例如, d l d_l dl=1)表示低等级特征( d l ≪ d d_l ≪ d dld)的中间维度。对于输入特征f,高阶(Fh)和低阶VIDA(Fl)的产生特征表示为: f h = W d o w n h ⋅ ( W u p h ⋅ f ) ; f l = W u p l ⋅ ( W d o w n l ⋅ f ) f_{h}=W_{down}^{h}\cdot(W_{up}^{h}\cdot f);\quad f_{l}=W_{up}^{l}\cdot(W_{down}^{l}\cdot f) fh=Wdownh(Wuphf);fl=Wupl(Wdownlf)两个分支的瓶颈通过比例因子 ( λ h 和 λ l ) (λ_h和λ_l) (λhλl)的剩余连接连接到原始网络( f o f_o fo)的输出特征。融合知识( f f f_f ff)可以描述为:
    f f = f o + λ h × f ˉ h + λ l × f l ( 3 ) f_f=f_o+\lambda_h\times\bar{f}_h+\lambda_l\times f_l\quad(3) ff=fo+λh×fˉh+λl×fl(3)领域知识规模因子( λ h 和 λ l λ_h和λ_l λhλl)是通过动态平衡知识分配策略自适应获得的,如第3.3节所示。在推理过程中,通过重新参数化,可以将不同领域表示的VIDAS(线性关系)投影到预先训练的模型中,从而确保不会增加原始模型的额外模型参数。

3.3 HOMEOSTATIC KNOWLEDGE ALLOTMENT

  • 启发
    在CTTA中,目标域数据只能访问一次,并且表现出不同的分布偏移,这突显了有效域转移的重要性。此外,为了有效地解决错误积累和灾难性遗忘,有必要提取不同的知识并将其分开管理。虽然低阶和高阶VIDA的专业化结构有助于不同的领域表示学习,但持续的适应过程还需要规则化知识融合权重,以确保在不影响长期领域共享知识的保留的情况下有效获取相关领域特定知识。
  • HKA design
    如图2(B)所示,我们从之前的方法中获得灵感,并引入不确定性值来量化每个样本的分布偏移程度。虽然置信度是评估预测可靠性的常用指标,但在不断变化的环境中,它往往会出现不规则的波动,变得不可靠。为了解决这一限制,我们在线性层上采用了MC Dropout技术,使多次前向传播能够获得每个样本的m组概率。
    在这里插入图片描述
    随后,我们计算给定输入 x x x的不确定性值 U ( X ) \mathcal U(X) U(X),其公式如下:
    U ( x ) = ( 1 m ∑ i = 1 m ∥ p i ( y ∣ x ) − μ ∥ 2 ) 1 2 (4) \mathcal{U}(x)=\left(\frac{1}{m}\sum_{i=1}^m\|p_i(y|x)-\mu\|^2\right)^{\frac{1}{2}}\text{(4)} U(x)=(m1i=1mpi(yx)μ2)21(4)其中, p i ( y ∣ x ) p_i(y|x) pi(yx)是第i次前向传播中输入x的预测概率,而 µ µ µ是第m次预测的平均值。根据不确定度分数动态调整比例因数( λ h 和 λ L λ_h和λ_L λhλL),公式如下:
    { λ h = 1 + U ( x ) λ l = 1 − U ( x ) , U ( x ) ≥ Θ λ h = 1 − U ( x ) λ l = 1 + U ( x ) , U ( x ) < Θ ( 5 ) \left\{\begin{array}{ccc}\lambda_h=1+\mathcal{U}(x)&\lambda_l=1-\mathcal{U}(x),&\mathcal{U}(x)\geq\Theta\\\lambda_h=1-\mathcal{U}(x)&\lambda_l=1+\mathcal{U}(x),&\mathcal{U}(x)<\Theta\end{array}\right.\quad(5) {λh=1+U(x)λh=1U(x)λl=1U(x),λl=1+U(x),U(x)ΘU(x)<Θ(5)不确定度的阈值表示为 Θ \Theta Θ,其中 Θ \Theta Θ=0.2。为了实现不同领域知识的动态平衡,在面对不确定性值较大的样本时,自适应地增加领域知识的融合权重( λ h λ_h λh)。反之,如果输入的不确定性值较低,则会增加领域共享知识的融合权重( λ l λ_l λl)。

3.4 OPTIMIZATION OBJECTIVE

在先前的CTTA工作之后,我们利用教师模型 T \mathcal T T来生成用于更新ViDAs的伪标签 y ~ \widetilde y y 。以一致性损失 L c e L_{ce} Lce为优化目标。 L c e ( x ) = − 1 C ∑ c C y ~ ( c ) log ⁡ y ^ ( c ) (6) \mathcal{L}_{ce}(x)=-\frac{1}{C}\sum_{c}^{C}\widetilde{y}(c)\log\hat{y}(c)\text{(6)} Lce(x)=C1cCy (c)logy^(c)(6)
其中 y ^ \hat y y^是我们的学生模型 S \mathcal S S的输出, C \mathcal C C表示类别的数量。我们加载源预训练参数来初始化两个模型的权重,并采用指数移动平均(EMA)来更新ViDAs的教师模型。
T t = α T t − 1 + ( 1 − α ) S t \mathcal{T}^t=\alpha\mathcal{T}^{t-1}+(1-\alpha)\mathcal{S}^t Tt=αTt1+(1α)St
其中t是时间步长。并设置更新权重 α = 0.999 \alpha =0.999 α=0.999

4 实验

在4.2节和4.3节中,我们将我们的方法与其他SOTA方法在分类和语义切分CTTA上进行了比较。在第4.4节中,我们使用基础模型(DINOv2和SAM)作为骨干,并评估我们方法的有效性。在4.5节中,我们进一步评估了该方法在不可见目标领域上的泛化能力。在第4.6节中进行了全面的消融研究。

4.1 任务参数设置和数据集

  • Dataset
    数据集。我们在三个分类CTTA基准上对我们的方法进行了评估,包括CIFAR10to-CIFAR10C、CIFAR100-to-CIFAR100C和ImageNet-to-ImageNet-C。对于分割CTTA,我们在城市景观到ACDC上评估了我们的方法,其中城市景观数据集作为源域,ACDC数据集代表目标域。
  • CTTA Task setting
    在分类CTTA任务中,我们依次将预训练源模型适应于腐败严重程度最大的15个目标领域(级别5)。在遇到输入数据后,立即对在线预测结果进行评估。关于分割CTTA,源模型是在城市景观数据集上预先训练的现成模型。对于连续的目标域,我们利用了ACDC数据集,该数据集包括在四种不可见的视觉条件下收集的图像:雾、夜、雨和雪。为了在现实生活场景中模拟连续的环境变化,我们循环重复相同的目标域序列(雾→夜→雨→雪)多次。
  • Implementation Details
    在我们的CTTA实验中,我们遵循先前工作中指定的实现细节,以确保一致性和可比性。我们采用ViT-base和ResNet(He等人,2016)作为CTTA分类的主干。在ViT-base的情况下,我们将输入图像的大小调整为224x224,同时保持其他主干的原始图像分辨率。对于CTTA分割,我们采用预训练的Segformer-B5模型作为源模型。我们对目标域数据的输入大小从1920x1080到960x540进行下采样。优化器使用adam执行, ( β 1 , β 2 ) = ( 0.9 , 0.999 ) (β_1,β_2)=(0.9,0.999) (β1β2)=(0.90.999)。我们将每个任务的学习速率设置为特定值: 1 E − 4 1E-4 1E4用于CIFAR10C, 5 E − 7 5E-7 5E7用于ImageNetC, 3 E − 4 3E-4 3E4用于ACDC。为了初始化我们的视觉领域适配器,我们在分类数据集(例如,ImageNet)上训练适配器多次迭代。我们将一系列的图像分辨率比例因子 [ 0.5 , 0.75 , 1.0 , 1.25 , 1.5 , 1.75 , 2.0 ] [0.5,0.75,1.0,1.25,1.5,1.75,2.0] [0.50.751.01.251.51.752.0]应用于增强方法,并构建了教师模型输入。

4.2 CTTA分类的有效性

ImageNet到ImageNet-C给定在ImageNet上预训练的源模型,我们对ImageNet-C进行CTTA,它包括在测试时间内顺序发生的15种损坏类型。在表1中,与使用ResNet50主干的方法相比,使用VIT主干的方法实现了更低的分类错误,从而展示了ViT在不断变化的环境中的卓越泛化能力。在这里插入图片描述

对于VIT-BASE,当我们直接在目标领域上测试源模型时,平均分类错误高达55.8%。我们的方法可以超越所有以前的方法,分别比源模型和以前的SOTA方法获得12.4%和6.6%的改进。此外,我们的方法在大多数类型的腐败中都表现出了显著的性能,突出了它对错误积累和灾难性遗忘的有效缓解。此外,我们在附录B1中进行了10轮CTTA实验,ImageNet-C中的10轮15个损坏序列。我们的方法的性能随着时间的推移而不断提高,表明其在长期适应过程中具有持久的健壮性。
为了进一步验证该方法的有效性,我们在CIFAR10-to-CIFAR10C和CIFAR100-to-CIFAR100C上进行了实验。如表2所示,在CIFAR10C中,与以前的SOTA模型相比,我们的方法实现了2.8%的改进。我们将我们的评估扩展到CIFAR100C,它在每个领域包含了更多的类别。我们的方法超过了所有以前的方法,这些方法表现出了与上述CTTA实验相同的趋势。因此,结果证明,我们的方法缓解了连续分布变化带来的挑战,而不考虑每个领域中存在的类别数量。此外,我们在附录C.5中利用卷积主干提供了补充的CTTA实验。
在这里插入图片描述

4.3 CTTA分割的有效性

  • Cityscapes-to-ACDC
    如表4所示,我们观察到TENT和DePT的mIoUs随着时间的推移而逐渐减少,这表明发生了灾难性的遗忘。相反,当相同的靶结构域序列重复时,我们的方法具有持续改进的平均MIU61.1→62.2→62.3。值得注意的是,该方法超过了以前的Sota CTTA方法,实现了MIU3.3%的增长。这一显著的改进展示了我们的方法在像素级任务中连续适应动态目标域的能力。10轮语义切分CTTA实验如附录C.6所示。
    在这里插入图片描述

4.4 在基础模型上持续适应

Foundation models在大规模数据集上进行训练,赋予它们强大的泛化能力和捕获共同特征表示的能力。然而,对基础模型进行完全微调既耗时又经济不切实际。因此,我们的自适应方法通过提高基础模型的连续传递性能而被证明是有价值的。如表3所示,我们引入基础模型作为预训练模型,并将它们适应于连续的目标领域(CIFAR10C)。我们的方法在典型的图像级基础模型DINOv2上获得了4.8%的性能改进,在像素级基础模型SAM上获得了5.2%的性能改进。我们的方法在不断变化的环境中一致而可靠地提高了基础模型的性能。请注意,我们只使用SAM的预训练编码器,并添加了一个分类头,该分类头在源域上进行了微调。我们的方法使大规模模型具有连续迁移学习的能力,而不破坏其可塑性。关于基础模型的其他CTTA实验见附录C.1和C.2
在这里插入图片描述

4.5 DOMAIN GENERALIZATION ON UNSEEN CONTINUAL DOMAINS

为了研究我们方法的域泛化(DG)能力,我们遵循leave-one-domain-
out的规则,利用ImageNet-C的10/15域作为模型训练的源域,而其余(5/15域)被视为目标域,没有任何形式的适应。具体地说,我们首先使用我们提出的方法在没有任何监督的情况下将源预训练模型不断地适应到ImageNet-C的10/15域。然后我们直接在5/15看不见的域上进行测试。令人惊讶的是,我们的方法在不可见域上的平均误差降低了7.6%(表5),这比其他方法有了显著的改进。实验结果表明,该方法通过有效地抽取领域共享知识,具有DG能力。补充附录C.3提供了更多的DG实验。在这里插入图片描述

4.6 消融实验

每个组件的有效性。我们对ImageNet到ImageNet-C的CTTA场景进行了消融研究,并评估了该方法中各个组成部分的贡献,包括高阶VIDA(ViDAh)、低阶VIDA(ViDAL)和稳态知识分配(HKA)策略。如表6( E x 2 E_{x_2} Ex2)所示,通过引入高阶VIDA,误差比 E x 1 E_{x_1} Ex1降低了5.1%,表明高阶特征可以提取更多特定领域的知识用于目标领域的适应。如 E x 3 E_{x_3} Ex3所示,与 E x 1 E_{x_1} Ex1相比,低等级VIDA提高了4.6%。结果表明,从低阶特征中提取的领域共享知识也可以提高对连续目标领域的分类能力。 E x 4 E_{x_4} Ex4总体上有10.2%的显著提高,说明两种类型的VIDA在不断的适应过程中可以相互补充。 E x 5 E_{x_5} Ex5达到12.4%的改进,证明HKA策略在增强每种类型的VIDA的不同领域表示方面的有效性。为了进一步评估HKA的有效性,我们进行了一个额外的实验,标记为 E x 5 E_{x_5} Ex5,通过颠倒HKA策略中的比例因素。具体地说,对于具有较高不确定性的样本,我们降低了 λ h λ_h λh,而增加了 λ l λ_l λl。这导致了相对于EX4的误差边际增加了0.7个百分点,相对于EX5的误差增加了2.9个百分点。其他消融研究见附录C.4。9
在这里插入图片描述)

5 总结

在本文中,我们提出了一种自平衡视觉领域适配器(ViDA)来解决连续测试时间适应(CTTA)任务中的错误累积和灾难性遗忘问题。研究发现,低等级的VIDA可以忽略动态分布变化的影响,优先提取领域共享知识,而高等级的VIDA可以提取更可靠的领域特定知识。同时,我们进一步提出了一种动态平衡的知识分配(HKA)策略来动态融合来自低等级和高等级VIDAS的知识,从而增强了VIDAS的独特领域表示

6 分割和分类任务

  • 31
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wbzuo

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值