ICLR 2024 | TTA新Setting，模态可靠性偏置下测试时领域适应

最新推荐文章于 2024-08-20 09:32:58 发布

PaperWeekly

最新推荐文章于 2024-08-20 09:32:58 发布

阅读量1.1k

点赞数 22

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/137363417

版权

©PaperWeekly 原创 · 作者 | 杨谋星

单位 | 四川大学

研究方向 | 多模态学习

简介

测试时领域适应（Test-time Adaptation，TTA）旨在使源域模型适应推理阶段时不同分布类型的测试数据，是当前用于提高神经网络模型分布外泛化能力的有效范式。

然而，目前大多数 TTA 方法都聚焦于单模态任务，忽略了开放场景下多模态测试数据流对多模态模型带来的模态可靠性偏置挑战。简言之，当某一模态测试数据出现分布偏移时，不同模态之间的任务信息量将出现显著差异，导致模态重要性失衡，即模态可靠性偏置。

近日，来自四川大学和天津大学的研究者们率先揭露了多模态 TTA 中的模态可靠性偏置问题。以音画多模态预训练模型为基础模型，通过大量实验验证了在模态可靠性偏置问题下，现有 TTA 方法将面临模态融合不可靠和预测结果高熵低质等挑战，无法保障多模态模型的泛化性。

为此，研究者们提出一种名为 REliable fusion and robust ADaptation（READ）的新方法。

一方面，与现有微调模型 Batch Norm.（BN）或 Layer Norm.（LN）层的 TTA 范式不同，READ 以一种自适应的方式调节模态之间的 Attention，以此保障对多模态测试数据流的可靠融合。

另一方面，READ 采用了一个鲁棒损失函数来实现噪声鲁棒的域自适应。为促进对模态可靠性偏置问题的研究，研究者们以多模态行为识别和多模态事件分类为验证任务，提供了两个新的多模态可靠性偏置 Benchmarks。

论文题目：

Test-time Adaption against Multi-modal Reliability Bias

论文地址：

https://openreview.net/pdf?id=TPZRq4FALB

代码地址：

https://github.com/XLearning-SCU/2024-ICLR-READ

引言

多模态预训练模型已在识别、检索等众多下游任务中展示出不凡潜力，是多模态学习的核心热点之一。通常来说，多模态预训练模型从源域中习得大量共性知识后，通过注意力机制在目标域上整合不同模态的信息，可被定制化到不同的下游任务中。

然而，这种预训练-微调范式的成功依赖于源域和目标域/测试域的独立同分布假设，忽略了开放场景中分布偏移的影响。如图 1-a 所示，恶劣天气条件（雨雪雾等）、传感器退化（摄像头失焦等）等因素均将导致分布偏移，对模型的泛化性带来挑战。

▲ 图1. 模态可靠性偏置的观察。图中数值来自于 Kinetics 多模态数据集中测试数据流视觉模态偏置下得到的实验结果。

过去多年，许多 TTA 方法 [1,2] 都致力于实现对分布偏移测试数据流的鲁棒性。大多数方法通过微调预训练模型中的 BN 或 LN 层，以期模型能适应测试数据流的分布。在优化层面，这些方法通常以最小化模型在测试数据流上的预测的信息熵为目标函数。

尽管这些 TTA 方法取得了耀眼的效果，大多数方法都仅针对单模态测试数据的分布偏移，忽略了多模态场景的特殊性。具体的，一旦某个模态数据受到分布偏移的影响，模态之间的任务信息差异将被放大，导致模态间的可靠性偏置。

如图 1-b 的例子所示，当一辆搭载声学和视觉传感器的无人车辆行驶至嘈杂环境下时，视觉传感器将比声学传感器更可靠，行驶至雾天环境下则反之。上述情景下，将有某一模态出现分布偏移，进而引发模态可靠性偏置问题。

如图 1-c 所示，在该问题下，无论是经典的后期融合（Late Fusion，LF）还是目前主流的基于注意力机制融合（Attention-based Fusion，AF）策略都将导致多模态模型性能严重退化。同时，目前面向不平衡多模态数据的方法 [3,4] 要求在源域有标签数据中进行鲁棒训练，仅能缓解而无法从根本上解决该问题。

需要指出的是，现有 TTA 方法均无法有效处理这一挑战。一方面，现在TTA范式无法完全消除某个模态的分布偏移影响，不可避免引入模态可靠性偏置挑战，导致不可靠的多模态融合；另一方面，一旦代表性模态受分布偏移影响，基于熵最小化的 TTA 方法将欠/过拟合测试数据流。

挑战及解决方案：

本文提出 REliable fusion and robust Adaptation（READ），其包含 Self-adaptive Attention 模块和 Confidence-aware Loss 函数用以解决模态可靠性偏置下的两个挑战，以实现多模态测试数据流的可靠融合和鲁棒适应。

▲ 图2. Reliable fusion and robust adaptation方法的框架图。

挑战1：模态可靠性偏置下如何完成多模态测试数据流的可信融合？

分析：如图 3 结果所示，主流的多模态融合方法均无法得到模态偏置测试数据流的可靠融合结果。具体的：

经典的 Late Fusion 方式平等地对待每一个模态，显然无法应对模态可靠性偏置问题；

主流的 Attention-based Fusion 从数据中得到融合权重，一定程度上能缓解该问题，但其融合方式相对静态，无法满足开放场景下动态领域适应的需求；

面向不平衡多模态数据的方法如 QMF [4]（ICML 2023）即便在理想条件下（即：训练过程中提前经历所有的分布偏移类型以学习融合权重的分配模式）也仅取得次优的效果。因此，推理阶段动态融合可能是解决模态可靠性偏置的更优方案。

▲ 图3. 不同多模态融合方式的性能比较。

方案：受主流 TTA 范式通过调制 BN/LN 的方式来缩减跨域鸿沟的启发，针对多模态场景的特殊性，本文提出动态调节模态之间融合权重的方式。简言之，对于多模态测试数据流，作者提出对模型融合模块中注意力层的 QKV 投影层进行在线更新，以此动态调节融合权重，实现推理阶段多模态可靠融合。

挑战2：模型预测以高熵低质为主导时如何实现鲁棒的跨域适应？

分析：如图 1-d 所示，模态可靠性偏置下模型的预测将呈现高熵低质，严重阻碍鲁棒的跨域适应。具体地：主流 TTA 范式以最小化全部预测或或少量可靠的信息熵为目标函数。在模态可靠性偏置问题下，当代表性模态受分布偏移影响，作者观察到只有少量低熵样本维持较高的预测准确度，而大量的预测结果呈现高熵且不准确现象。

一方面，仅在这些少量但可靠的预测上优化可能导致模型欠拟合；另一方面，对大量高熵低质的预测结果进行熵最小化将导致模型严重过拟合。

方案：为此，我们设计了如下的损失函数：

该损失函数的工作机理为：通过放大梯度来增强高置信度预测（，潜在干净）对模型优化的贡献；通过缩减梯度来缓解低置信度预测（，潜在噪声）对模型优化的影响；与此同时，梯度放大和缩减因子将分别和潜在干净预测和噪声预测的置信度呈现正比和反比关系。

实验结果

本文旨在克服多模态 TTA 面临的模态可靠性偏置问题。我们以目前 SOTA 的视觉-声音预训练模型 CAV-MAE [5]（ICLR 2023）为基础模型，通过多模态动作识别、多模态事件分类等具体任务上的 15 种视觉分布偏移和 6 种声学分布偏移类型进行验证，部分实验结果如下。

1）模态可靠性偏置下的多模态动作识别

2）模态可靠性偏置下的多模态事件分类

总结

本文揭示了 TTA 范式在多模态场景下所面临的“模态可靠性偏置”问题。通过分析现有 TTA 方法在处理该问题时所面临的两大挑战，作者提出测试时多模态可靠融合新方式和噪声鲁棒的领域适应损失函数。同时，作者构建了两个模态可靠性偏置的 Benchmarks，并验证了方法的有效性。

参考文献

[1] Dequan Wang, Evan Shelhamer, Shaoteng Liu, Bruno Olshausen, and Trevor Darrell. Tent: Fully test-time adaptation by entropy minimization. In ICLR, 2021.

[2] Shuaicheng Niu, Jiaxiang Wu, Yifan Zhang, Zhiquan Wen, Yaofo Chen, Peilin Zhao, and Mingkui Tan. Towards stable test-time adaptation in dynamic wild world. In ICLR, 2023.

[3] Xiaokang Peng, Yake Wei, Andong Deng, Dong Wang, and Di Hu. Balanced multimodal learning via on-the-ﬂy gradient modulation. In CVPR, 2022.

[4] Qingyang Zhang, Haitao Wu, Changqing Zhang, Qinghua Hu, Huazhu Fu, Joey Tianyi Zhou, and Xi Peng. Provable dynamic fusion for low-quality multimodal data. In ICML, 2023.

[5] Yuan Gong, Andrew Rouditchenko, Alexander H Liu, David Harwath, Leonid Karlinsky, Hilde Kuehne, and James R Glass. Contrastive audio-visual masked autoencoder. In ICLR, 2023.

更多阅读