测试阶段模型自适应方法总结

最新推荐文章于 2024-12-26 14:31:42 发布

PaperWeekly

最新推荐文章于 2024-12-26 14:31:42 发布

阅读量1.8k

点赞数 1

文章标签：大数据算法 python 计算机视觉神经网络

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/126899779

版权

本文总结了Test-Time Adaptation (TTA)方法，包括T3A、DomainBed、Tent和TADE，探讨了在域泛化和长尾识别中如何利用在线测试样本提高模型泛化能力。T3A通过更新线性层权重以适应测试样本，DomainBed结合域嵌入和输入增强，Tent通过熵最小化进行完全测试时间适应，而TADE则利用多样化的专家模型在测试时聚合预测。

摘要由CSDN通过智能技术生成

©PaperWeekly 原创 · 作者 | 张一帆

单位 | 中科院自动化所博士生

研究方向 | 计算机视觉

Domain Generalization（DG：域泛化）一直以来都是各大顶会的热门研究方向。DA 假设我们有多个个带标签的训练集（源域），这时候我们想让模型在另一个数据集上同样表现很好（目标域），但是在训练过程中根本不知道目标域是什么，这个时候如何提升模型泛化性呢？核心在于如何利用多个源域带来的丰富信息。

DG 最困难的地方在于 test-sample 的不可知，训练时不可用，近期有一系列方法开始尝试假设 test sample 以 online 的形式出现，然后利用其信息增强泛化性，下表总结了 test time daptation 方法与传统 DA，DG 方法的区别。

传统 DG 方法就是在源域 finetune 预训练模型，然后部署时不经过任何调整。DA 方法可以根据无标签的目标域数据在训练时调整模型，test-time training 方法在测试时会有一些无监督损失比如检测旋转角度等，然后对每个 test sample 也会进行旋转角度的检测，本文所述的 fully test-time adaptation 在 training 的时候不需要无监督损失，而只需要在 test 的时候进行 adaptation。

T3A

论文标题：

Test-Time Classifier Adjustment Module for Model-Agnostic Domain Generalization

论文来源：

NeurIPS 2021 Spotlight

论文链接：

https://proceedings.neurips.cc/paper/2021/hash/1415fe9fea0fa1e45dddcff5682239a0-Abstract.html

代码链接：

https://github.com/matsuolab/T3A

以往的 DG 方法都致力于研究如何利用好手头的域信息，这篇文章另辟蹊径。在 test 的阶段，我们在依然会选择更新模型头部的linear层。但是这与直接使用 test 的数据进行训练不同，主要的差异在于，本文假设在测试时，模型通常部署在某些环境中，并且必须在不断出现的各种示例上工作良好，样本连续到来是本文场景的主要特征，在拿到样本后模型需要立刻给出决策并更新。

本文的方法被称之为 test-time templates adjuster（T3A），接下来我们对其 intuition 和具体实现思路进行介绍。

首先，我们知道模型的分类是通过样本特征和分类层对于类的权重进行点积然后 softmax 得到的，也就是说分类层的权重在这里作为一个 prototype，预测是在衡量样本到每个 prototype 之间的相似度。