论文阅读:Adaptive Distribution Masked Autoencoders for Continual Test-Time Adaptation(CVPR 2024)

本文提出了一种名为ADMA的自适应分布掩码自动编码器,通过分布感知掩码机制(DaM)处理动态数据分布中的伪标签噪声,增强目标领域知识提取,减轻分布偏移。该方法利用HOG特征的不变性,重构被掩码的tokens,从而在持续测试时间适应中防止灾难性遗忘。实验结果显示了显著的性能提升。
摘要由CSDN通过智能技术生成

【供个人学习使用】

论文链接

标题:用于持续测试时间适应的自适应分布掩蔽自编码器

摘要

现有的 CTTA 方法主要依靠熵最小化或师生伪标记方案来提取无标记目标域中的知识。

然而,动态数据分布会导致预测误判和伪标签噪声,从而会导致误差累积和灾难性遗忘问题。

提出了一种持续的自监督方法--自适应分布掩码自动编码器(ADMA),在增强目标领域知识提取的同时,减轻分布偏移的积累。

具体来说,我们提出了一种分布感知掩码(DaM)机制,用于对掩码位置进行自适应采样,然后在掩码目标样本和原始目标样本之间建立一致性约束

对于被掩蔽的 tokens,我们利用高效的解码器来重建手工制作的特征描述符(如方向梯度直方图),利用其不变特性来增强任务相关的表征。
【这里出现 tokens,是因为骨干模型基于 Transformer 结构】

四个基准上进行实验。【分别是:Cifar10c,Cifar100c,ImageNet-C,Cityscapes-to-ACDC】

1 引言

CTTA (连续测试时间适应)问题在 CoTTA 中被提出。 CTTA 展示了前景广阔的潜在应用,但它也增加了迁移学习的难度,带来了灾难性遗忘和错误积累问题。

传统的平均教师法 [44] 在动态环境中会产生噪声伪标签,导致分布偏移的累积。
【噪声伪标签可以说是很难避免的】

虽然 [9、30、47] 利用测试时间增强法来提高伪标签的准确性,但它限制了 CTTA 过程的效率。
【比如 47-CoTTA 中,用图像增强的方法,来处理置信度较低的批次样本,这降低了效率。】

在 MAE 中重建低级 RGB 信号被认为是原始和多余的,无法在下游视觉任务中释放 MAE 的潜力[16, 22]。

提出了一种分布感知遮蔽(DaM)机制,用于区分目标域特定的图像斑块和不太重要的背景斑块(patch)。
【区分领域专门 patch 和领域无关 patch】

具体来说,我们提出了一种分布感知遮蔽(DaM)机制,用于区分目标域特定的图像斑块和不太重要的背景斑块(patch)。
【区分领域专门 patch 和领域无关 patch】

  1. DaM 根据标记(token)不确定性估计动态选择掩码位置,并将可学习的掩码放置在具有显著领域偏移的标记嵌入上
    【token-wise uncertainty estimation。令牌级不确定性估计,然后将掩码放在具有显著领域偏移的令牌嵌入上面。】

  2. 随后,它在从屏蔽目标样本生成的网络输出和从原始目标样本生成的网络输出之间建立一致性约束。
    【对于掩蔽前后的目标样本,计算误差,显然希望它越小越好】

此外,对于掩码 token,我们采用了高效解码器来重建手工创建的特征描述符,如方向梯度直方图(HOG)。

HOG 擅长捕捉局部形状和外观,对几何和分布变化表现出部分不变性[7, 48]。

因此,我们利用其不变特性来获取目标领域中与任务相关的表征,从而在持续适应过程中减轻领域变化的影响,防止灾难性遗忘问题的发生。

贡献:

  1. 首次尝试引入重构技术来解决 CTTA 问题。自适应分布掩码自动编码器(ADMA)能增强目标领域知识的提取,同时减轻分布偏移的积累。

  2. 在 ADMA 中,我们提出了一种分布感知掩码(DaM)机制,可以自适应地在具有显著分布偏移的标记嵌入上放置可学习的掩码。

  3. 对于被掩码的标记,我们利用高效的解码器来重构方向梯度直方图,利用其不变特性来增强任务相关的表征,防止灾难性遗忘问题。【自编码器重构的是方向梯度直方图】

3 方法

一种流行的 CTTA 方法主要侧重于应用熵最小化来更新批量归一化层 [17, 32, 45] 或模型参数的一部分 [43]。然而,由于动态环境的影响,这种自我训练方法很容易出现预测误差,导致无法控制的误差累积。

其他主流方法利用连续目标域中的师生伪标记。然而,传统的平均教师法[44]会增加计算成本,并在动态环境中产生噪声伪标签,导致分布偏移的积累。

虽然 [9, 30, 47] 等方法利用测试时间增强方法来提高伪标签的准确性,但它们可能会限制 CTTA 过程中的效率。

我们率先采用了掩码自动编码器(MAE)来解决 CTTA 问题,摒弃了误校准预测的影响和繁琐的师生模型。
【首先,真的摒弃了误校准的影响吗?其次,师生模型不算繁琐啊。】

主要见解在于采用重构方案来有效提取目标领域知识,同时减少领域偏移的积累。
【将掩码部分重构成 HOG】

通过在屏蔽输入和原始输入之间建立一致性约束,DaM 极大地增强了对目标领域知识的理解,并减轻了错误积累的挑战。

对于屏蔽的标记(token),我们采用线性解码器来重构方向梯度直方图,利用其不变特性来获取与任务相关的表征,同时避免引入目标域偏移。

这种重构方法是一种预防措施,可以避免在持续适应过程中出现灾难性遗忘。我们将在第 5 节中提供直观的解释和论证。

分布感知掩蔽(DaM):

为了将遮蔽图像重建作为一项有意义的前置任务,以往的研究通常采用一种激进的遮蔽方法,即随机遮蔽大部分输入图像斑块[20, 48]。然而,这种策略带来了一个潜在的缺陷:剩余的可见斑块可能主要由背景信息组成,可能缺乏重建前景细节所必需的关键线索[22]。
【重建所需关键信息被遮住了】

在 CTTA 任务中,与传统的 MAE 预训练不同,每个样本只出现一次,这就要求重建过程具有很高的效率。

DaM 中的关键概念是选择域偏移较大的标记进行屏蔽,确保保留的可见标记表现出相对较少的域偏移【真能确保吗】,同时通过模型编码器提供可靠的语义知识。

为了量化标记(token)的分布偏移,我们从文献[35, 40]中汲取灵感,引入了一种标记不确定性估计(token-wise uncertainty estimation)方法。

采用 MC Dropout [11],通过多次前向传播为每个标记获取 m(例如 m = 10)组特征。

计算给定标记 xj 的不确定度值 U (x),如下所示:

其中,fi(xj) 是标记 xj 在第 i 个前向传播中的特征值。μ 是标记特征在 m 个前向传播中的平均值。【用简单的方式计算不确定值】

我们采用了平均池化方法,将标记的维度从 1 × 768 缩减到 1 × 1。

我们只在第一个变换器区块中的 FFN 层内的线性层应用 MC Dropout

我们在本地 FFN 层进行 m 次前向传播,计算不确定值不会显著增加计算成本。

这样,我们就得到了每个标记的不确定值。排序后,我们选择不确定性最高的 P%(例如 50%)标记进行掩码

将掩码图像输入模型,利用剩余的上下文线索重建类别标签。

由遮蔽目标样本生成的网络输出(ˆ y(c)、y(c))与原始目标样本的网络输出之间建立一致性约束。

【简单的交叉熵】

通过 DaM 和一致性约束,我们可以掩盖大量的分布偏移,在学习目标领域上下文知识的同时避免领域偏移的积累。
【把偏移得厉害的部分给掩盖了,以免影响网络对于类别预测的判断?】

重建目标特征:

以往的 MAE 方法通常选择低层次的 RGB 信息 [20] 或高层次的语义信息 [16, 22] 作为重建目标。

在 CTTA 任务中,重建目标域的 RGB 信号会在重建过程中引入固有的域偏移。
【颜色、亮度、饱和度、对比度等信息在这类任务上可能不太具有参考价值】

同样,在重建目标域的语义特征(如 CLIP [36] 中的特征)时,由于在特征提取过程中没有对域偏移进行任何操作,这意味着这种方法仍然无法减轻域偏移。

受 [48] 模型预训练的启发,我们在 CTTA 任务中引入了方向梯度直方图(HOG)重构。

HOG 是一种特征描述器,用于描述局部子区域内梯度方向或边缘方向的分布[7]。
【梯度信息或边缘信息】

用 HOG 作为重建目标有两个优势:1) 其捕捉局部形状和外观的固有能力确保了对几何变化的不变性,以及 2) 通过图像梯度和局部对比度归一化吸收亮度确保了对不同环境和天气条件的不变性。

为了获得 HOG 特征,我们采用了双通道卷积法,沿着 x 轴和 y 轴产生梯度,然后进行直方图和归一化处理。根据文献[48],我们将方位分段设置为 9,空间单元大小为 8 × 8,通道设置为 3。

获得 HOG 特征后,我们采用线性层将可学习的屏蔽标记投射到与 FHOG 相同的维度,最小化屏蔽标记位置的 HOG 预测 PHOG 与 HOG 标签 FHOG 之间的 L2 距离。
【应该是,对于每个被掩蔽的 patch,其重建任务就是对应位置的 HOG 特征。】

通过 HOG 重构,我们利用其不变特性提取 CTTA 问题中与任务相关的知识。

重构解码器是一个随机初始化的线性层,用于将与屏蔽补丁相关的输出标记投射到 HOG 特征上。

4 实验

数据集:和 CoTTA 一样。

任务设置:和 CoTTA 一样。

实验设置:

  • 骨干模型:ViTbase。【所以你的创新是要基于 ViT 呢,还是具有更普遍的适用性呢?】

  • 分辨率:cifar上为 384×384,imagenet 上为 224×224。ACDC 上为960×540

  • 优化器:Adam

实验结果:


【可以看到,提升还是非常明显的】

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值