©PaperWeekly 原创 · 作者 | 张一帆
单位 | 中科院自动化所博士生
研究方向 | 计算机视觉
Domain Adaptation(DA: 域自适应),Domain Generalization(DG: 域泛化)一直以来都是各大顶会的热门研究方向。DA 假设我们有有一个带标签的训练集(源域),这时候我们想让模型在另一个数据集上同样表现很好(目标域),利用目标域的无标签数据,提升模型在域间的适应能力是 DA 所强调的。
以此为基础,DG 进一步弱化了假设,我们只有多个源域的数据,根本不知道目标域是什么,这个时候如何提升模型泛化性呢?传统 DG 方法就是在源域 finetune 预训练模型,然后部署时不经过任何调整,核心在于如何利用多个源域带来的丰富信息。
然而一些文献表明,在不利用目标域信息的情况下实现很难实现泛化到任意分布这一目标。为了解决这一问题,测试时间自适应(TTA)方法被提出并得到了广泛研究,然而
1. 现有的 TTA 方法在推理阶段需要离线目标数据或更复杂的优化过程,如下图所示,各种 TTA 的方法,要么需要根据测试样本重新训练模型,要么需要更新模型的部分参数,或者需要额外的分支。
2. 绝大多数方法没有一个理论上的验证甚至是直觉。本文介绍我们发表于 ICML 2023 的文章《AdaNPC: Exploring Non-Parametric Classifier for Test-Time Adaptation》,感谢来自北大,Meta,阿里达摩院,普林斯顿的合作者们。
本文提出了非参数化测试时间自适应的方法,不需要任何的梯度更新。在此基础上,我们从理论上验证了该框架的有效性,说明了通过引入测试样本信息,我们能够取得更好的泛化效果。据我们所知,这也是第一篇对 TTA 进行理论分析的工作。
论文链接:
https://arxiv.org/abs/2304.12566
代码链接:
https://github.com/yfzhang114/AdaNPC
Motivations
在最近的研究中,人们发现在没有在推理期间利用目标样本的情况下,使模型对任何未知分布具有鲁棒性几乎是不可能的。测试时自适应(TTA)方法近期受到了广泛关注,以利用具有计算可行性约束的目标样本。然而,当前的 TTA 方法存在几个缺点。
1. 计算开销:现有的TTA方法需要批处理目标数据进行梯度更新和/或一个额外的模型进行微调,这在目标样本以在线方式一个接一个到达时是不可接受的。
2. 灾难性遗忘和模型扩展性弱:现有的 TTA 方法需要对训练模型进行更改。模型会逐渐失去对训练域的预测能力,这表明一些知识损失是不可避免的。这个问题在连续推理一系列领域时尤为重要。以 Rotated MNIST 数据集为例,我们使用最新的 TTA 方法 T3A 和 Tent 依次对 进行测试时自适应。
在上图中,我们观察到所有现有方法对 的泛化能力即使在前四个域进行适应后仍然很差。我们还总结了不断使用的模型在源域 的表现,如下图所示,随着模型的 adaptation,其在源域的性能显著下降。也就是说,当前的 TTA 方法不能适应一系列在线域,很容易忘记历史知识。