预测动态融合论文--论文整理（翻译）

本文链接：https://blog.csdn.net/m0_61636632/article/details/140405101

预测动态融合

Bing Cao¹², Yinan Xia¹, Yi Ding¹, Changqing Zhang¹², Qinghua Hu¹²

摘要

多模态融合在联合决策系统中至关重要，因为它能够做出全面的判断。由于多模态数据在开放环境中不断变化，动态融合已经在许多应用中取得了显著进展。然而，大多数现有的动态多模态融合方法缺乏理论保障，容易陷入次优问题，导致不可靠和不稳定。为了解决这个问题，我们提出了一种多模态学习的预测动态融合（PDF）框架。我们从泛化的角度揭示了多模态融合，并理论推导了具有单模态和全局信心的可预测协同信念（Co-Belief），从而显著降低了泛化误差的上限。此外，我们还提出了一种相对校准策略来校准预测的协同信念，以应对潜在的不确定性。在多个基准上的大量实验验证了我们的优越性。我们的代码可在[GitHub](https://github.com/Yinan-Xia/PDF)上获得。

1. 引言

许多现实世界中的决策挑战，如自动驾驶（Cui等，2019；Feng等，2020）、临床诊断（Perrin等，2009；Tempany等，2015）和情感分析（Soleymani等，2017；Zadeh等，2017），都基于多模态数据（Kiela等，2019）。为了充分捕捉互补（使用多模态的原因）的感知，多模态融合成为一种有前途的学习范式，提供了集成所有可用模态并实现增强性能的机会。尽管取得了这些进展，但实验表明，传统融合技术在很大程度上忽视了多模态数据质量在动态变化（Natarajan等，2012；Pérez-Rúa等，2019；Yan等，2004）。实际上，不同模态的数据质量及其内在关系往往随着开放环境而变化。大量研究（Xue & Marculescu, 2023）经验性地认识到，多模态学习有时会依赖于部分模态，甚至单一模态，而不是多模态数据，尤其是在模态不平衡（Wang等，2020；Peng等，2022）或高噪声（Huang等，2021c；Scheunders & De Backer, 2007）情况下。因此，动态多模态学习成为鲁棒（健壮性）融合的关键线索。一些最新研究理论证明，多模态学习模型并不总是优于其单模态对手，遇到有限的数据量（Huang等，2021b）。这表明多模态数据之间的动态关系并不是免费的午餐。

直观地，通过使用每种模态的整体质量估计来融合多模态数据是合理的。然而，由于单模态不确定性和多模态系统相对可靠性的变化，数据质量估计并不总是可靠的（Ma等，2023）。我们经验性地识别到每种模态的主导性在开放环境中动态变化。在此基础上，可靠多模态学习的一个根本挑战是如何精确估计每种模态对多模态系统的贡献（Zhang等，2023）。然而，现有的多模态动态融合技术主要通过探索动态网络架构（Xue & Marculescu, 2023）或通过不确定性估计模态的质量（Han等，2022b）来解决这个问题，通常缺乏理论保障，导致不令人满意的融合性能。

不可靠、不稳定

为了解决这个问题，我们重新审视了模态融合权重和损失之间的关系。从泛化误差的上限（Mohri等，2018）推导，我们揭示了减少泛化误差上限的关键在于融合权重与当前模态损失之间的负协方差以及融合权重与其他模态损失之间的正协方差，这意味着多模态系统中的融合权重不仅应考虑单模态，还应整合其他模态的状态。有了这个发现，自然的想法是利用每种模态的损失值进行多模态融合。然而，直接预测损失值是不稳定的，因为损失在收敛时最小化（见第5.3.3节）。在使用交叉熵损失的多模态分类设置中，我们将损失值的预测转换为真实类别标签的置信度，同时满足泛化误差推导出的相关性。动机基于一个自然的直觉，即真实类别的概率和损失是负相关的。

relative calibration相对校准策略

单模态和全局信心的可预测协同信念（Co-Belief）

为此，我们为多模态融合提供了一种新的理论基础，并提出了一个预测动态融合（PDF）框架，这在减少泛化误差上限和显著提高多模态可靠性和稳定性方面是有效的。如图1（a）所示，具体来说，PDF通过单模态置信度和全局置信度预测每种模态的协同信念（Co-Belief）。单模态和全局置信度分别来源于融合权重与损失函数之间的模态内负协方差和模态间正协方差（可靠性）。此外，我们经验性地识别到开放环境中的数据质量变化，这导致了不可避免的预测不确定性。为了解决这个问题，我们进一步提出了一种相对校准策略（不确定性、稳定性），从多模态系统的角度校准预测的协同信念，这意味着每种模态的相对主导性应随着其他模态质量的变化而动态变化