VIDA: HOMEOSTATIC VISUAL DOMAIN ADAPTER FOR CONTINUAL TEST TIME ADAPTATION--论文笔记

论文笔记

资料

1.代码地址

https://github.com/yangsenqiao/vida

2.论文地址

https://arxiv.org/pdf/2306.04344v3

3.数据集地址

论文摘要的翻译

针对实际机器系统运行在非平稳环境中的特点,提出了连续测试时间自适应(CTTA)任务,使预先训练的模型能够适应不断变化的目标域。目前,已有的方法主要集中在基于模型的自适应,旨在利用自训练的方式来提取目标域的知识。然而,在动态数据分布下,伪标签可能存在噪声,更新后的模型参数不可靠,导致在连续的自适应过程中误差累积和灾难性遗忘。为了应对这些挑战并保持模型的可塑性,我们设计了一个用于CTTA的可视化领域适配器(VIDA),显式地处理领域特定知识和领域共享知识。具体地说,我们首先全面地研究了具有可训练高阶或低阶嵌入空间的适配器的不同域表示。然后,我们将VIDAS注入到预先训练的模型中,该模型分别利用高阶和低阶特征来适应当前领域的分布和维护持续的领域共享知识。为了更有效地利用低等级和高等级的ViDA,我们进一步提出了一种自适应地结合每个ViDA的不同知识的动态平衡知识分配(HKA)策略。在四个广泛使用的基准测试上进行的大量实验表明,我们提出的方法在分类和分割CTTA任务上都取得了最好的性能。请注意,我们的方法可以被视为一种新的大规模模型的转换范例,在适应不断变化的分布方面提供了有希望的结果。

1背景

为了解决这个问题,提出了连续测试时间适应(CTTA),它解决了一系列不同的分布随时间变化的变化,而不是像TTA那样只有一个变化。此外,CTTA还包括有效的持续调整基础模型,以适应持续的下游任务或分布。
现有的CTTA工作主要采用基于模型或基于提示的方法来同时提取目标领域特定知识和领域共享知识。然而,对于基于模型的方法,噪声伪标签仍然是不可靠的,在避免误差累积方面发挥的作用有限,特别是在具有显著分布差距的情况下。同时,基于提示的方法在利用具有有限可训练参数的软提示来学习长期领域共享知识和防止灾难性遗忘方面面临困难。
为了解决这些限制并保持模型的可塑性,我们设计了一个自平衡视觉领域适配器(ViDA),如图1(a)所示,它在连续的适应过程中显式地管理领域特定和领域共享的知识。具体地说,我们首先仔细研究了在中间层具有可训练的高维或低维嵌入空间的VIDAS的不同领域表示。如图1(b)所示,我们的观察表明,具有低等级嵌入空间的VIDA专注于与任务相关的特征表征,在不同的领域显示出平凡的分布距离,并且忽略了动态分布转移的影响。相反,具有高等级特征的VIDA更专注于提取特定领域的知识,不同目标领域的特征分布表现出明显的差异。我们在3.1节和附录B中提供了对动机的详细解释。
在这里插入图片描述

这一观察结果促使我们将VIDAS注入预先训练的模型中,该模型利用高维和低维特征的不同领域表示来避免错误累积和灾难性遗忘。为了更好地提取不同领域的知识,我们进一步提出了一种自平衡知识分配(HKA)策略来动态融合来自低等级和高等级VIDA的知识。基于数据分布,HKA自适应地调整不同特征表示的平衡,包括原始模型、特定领域和与任务相关的特征。在推理过程中,低阶和高阶VIDA可以通过重新参数化投影到预先训练的模型中,这确保了不会增加额外的参数,并保持了模型的可塑性。

2论文的创新点

  • 我们研究了具有高阶和低阶特征的适配器的不同领域表示。然后,我们设计了一个视域适配器(VIDA),显式地管理领域相关知识和任务相关知识,分别解决错误累积和灾难性遗忘问题。
  • 考虑到每个目标样本的分布偏移程度的不同,我们进一步提出了一种自平衡知识分配(HKA)策略,动态地融合来自低阶和高阶的VIDA的知识,从而增强了ViDA的独特领域表示。
  • 通过在分类和分割CTTA四个基准数据集上的实验,我们提出的方法优于大多数最先进的方法。
  • 我们的CTTA方法为大规模模型提供了一种新的转换范例,在适应不断变化的分布方面提供了令人振奋的结果。同时,我们通过提出的自平衡ViDA使源模型具有领域泛化能力,实现了对看不见的目标领域的显著改进。

3 论文方法的概述

  • 开始阶段
    在连续测试时间适配中,我们在源域 D S = ( Y S , X S ) D_S=(Y_S,X_S) DS=(YSXS)上预先训练模型 q θ ( y ∣ x ) q_θ(y|x) qθ(yx),并将其适配到多个目标域 D T i = ( X T i ) i = 1 n D_{T_i}={(X_{T_i})}^n_{i=1} DTi=(XTi)i=1n,其中n表示连续目标数据集的规模。整个过程不能访问任何源域数据,只能访问一次目标域数据。目标结构域即KaTeX parse error: Expected 'EOF', got '}' at position 30: …2}、...、D_{T_n})}̲的分布随时间不断变化。我们的目标是使预先训练的模型适应于目标领域,并保持模型对所看到的领域分布的感知能力。
  • 总体框架
    根据教师预测往往比标准模型更稳健的见解,我们利用师生框架来确保持续的领域适应过程中的稳定性,这也与以前的CTTA工作进行了公平的比较。我们方法的总体框架和细节如图2所示。
    在这里插入图片描述

3.1 启发

CTTA遇到了重大挑战,主要是由于错误积累和灾难性遗忘。同时,具有不同维度中间层特征的适配器证明它应对这些挑战是有效的。这鼓励我们更进一步,证明CTTA中使用低级别适配器和高级别适配器的基本原则是正确的。

  • Low-rank adapter
    我们关于适配器在减轻灾难性遗忘中的有效性的假设是,它们的低阶嵌入空间表征起着至关重要的作用。为了进一步探索这一点,我们对第三个变压器块进行了t-SNE分布研究(Van der Maten&Hinton,2008),以分析四个目标域(ACDC数据集(Sakaridis等人,2021))上的特征分布。结果如图1(b)所示。我们的分析表明,低等级适配器在不同的目标领域表现出相对一致的分布,这表明其低等级嵌入空间可以有效地忽略动态分布变化的影响,并对领域共享知识的提取进行优先排序。
    在这里插入图片描述
    此外,我们采用了Ben-David提出的域距离定义,并在先前的域转移研究的基础上,使用H-发散度量来评估不同目标域上的适配器的域表示。两个分布 D S D_S DS D T i D_{T_i} DTi之间的差异距离可以计算为: d H ( D S , D T i ) = 2 sup ⁡ D ∼ H ∣ Pr ⁡ x ∼ D S [ D ( x ) = 1 ] − Pr ⁡ x ∼ D T i [ D ( x ) = 1 ] ∣ d_{\mathcal{H}}(D_{S},D_{T_{i}})=2\operatorname*{sup}_{\mathcal{D}\sim\mathcal{H}}|\operatorname*{Pr}_{x\sim D_{S}}[\mathcal{D}(x)=1]-\operatorname*{Pr}_{x\sim D_{T_{i}}}[\mathcal{D}(x)=1]| dH(DS,DTi)=2DHsupxDSPr[D(x)=1]xDTiPr[D(x)=1]其中 H \mathcal {H} H表示假设空间, D \mathcal {D}
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wbzuo

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值