集智书童 | 多教师特权知识精馏在多模态表达识别中的应用！

最新推荐文章于 2025-03-16 15:14:04 发布

双木的木

最新推荐文章于 2025-03-16 15:14:04 发布

阅读量1k

点赞数 19

分类专栏：深度学习拓展阅读文章标签：算法 transformer 深度学习人工智能 nlp 图像处理 YOLO

本文链接：https://blog.csdn.net/csdn_xmj/article/details/141668037

版权

本文来源公众号“集智书童”，仅用于学术分享，侵权删，干货满满。

原文链接：多教师特权知识精馏在多模态表达识别中的应用！

人类的情感是一种复杂的现象，通过面部表情、声音语调、身体语言和生理信号来传达和感知。多模态情感识别系统可以表现良好，因为它们可以从不同的传感器中学习互补和冗余的语义信息。在现实世界的场景中，测试时可能只存在用于训练的部分模态。学习特权信息允许模型利用在训练期间才可用的额外模态的数据。

最先进的特权知识蒸馏（PKD）方法已经被提出，用于从教师模型（结合不同的流行和特权模态）到学生模型（没有访问特权模态）的蒸馏。然而，这样的PKD方法使用点对点匹配，并没有明确捕捉到多模态空间中的关系信息。最近，已经提出了捕获和蒸馏结构信息的方法，并超越了点对点的PKD方法。但是，基于结构相似性的PKD方法主要局限于从单个联合教师表示中学习，这限制了它们的鲁棒性、准确性和从多样多模态源中学习的能力。

在本文中，作者引入了一种带有自蒸馏的多教师PKD（MT-PKDOT）方法，用于在蒸馏到学生之前对不同的教师表示进行对齐。MT-PKDOT采用基于正则化最优传输（OT）的结构相似性知识蒸馏机制。在损失函数中添加了一个额外的约束，以明确对学生空间中的质心进行对齐。

所提出的MT-PKDOT方法在两个具有挑战性的情感计算任务上进行了验证：在Affwild2上的愉悦度/唤醒度预测和在Biovid数据库上的疼痛估计。结果表明，作者提出的方法可以超越最先进的PKD方法。在Biovid数据上，该方法将仅视觉的基线提高了5.5%。

在Affwild2数据集上，所提出的方法在愉悦度和唤醒度上分别比仅视觉的基线提高了3%和5%。允许学生从多个多样源中学习被证明可以提高准确性，并隐式避免了负迁移到学生模型。代码已公开可用：https://github.com/haseebaslam95/MT-PKDOT。

I Introduction

在野外中进行情绪识别（ER）面临着独特的挑战，这些挑战包括环境变化、由于种族多样性导致的领域漂移，以及姿态变化以及某些模态部分或完全缺失等。这导致了越来越多的人对多模态ER（MER）系统的兴趣，该系统旨在模拟人类对情绪的类似于人类的识别过程[1]。由于跨模态信息能捕获冗余和互补性，因此多模态ER系统通常比单一模态系统表现更好[4,5]。尽管捕捉和融合多个模态会带来额外的成本，但这在有控制的环境（训练和测试时间都有所有模态可用）中的确能够提高精确度。然而，在实际场景中，某些模态的获取具有挑战性或代价高昂。为了克服这个问题，已有类似联合交叉注意力[6]的方法提出，可以动态地评估和权衡各个模态的重要性。但是，在有些情况下，某些模态是完全缺失的，对这些情况的处理效果有限。

MER系统包括多种模态，如面部、音频、文本和生理信号等。其中一些模态在野外更容易获取，如电极记录（EEG）、心电图（ECG）和肌电图（EMG）等生理信号[7] [8]，相比之下更具挑战性。然而，在某些情况下，这些生理信号比其他信号更有价值。例如，已经在疼痛估计等任务中，生理信号的表现超过了视觉模态[9]。然而，在实际场景中，生理信号并不总是可用。由于这种系统限制了受试者的自由移动，并需要专门的设备，大多数方法通常依赖于在设计和部署时都可用以及可用和可解释性高的模态，导致系统性能较低。然而，利用训练时间内仅可用的特殊信息（即拥有的优势模态）或许可以在测试时提升系统性能。

最近，机器学习中的使用特殊信息（LUPI）范式被引入用于情感计算[2,3,10]。机器学习中的特殊信息（PI）是在模型训练时间而非推理时间内可用的信息[11]。对于多模态系统，PI通常是仅在训练时间可用且只有训练和推理时间可用的特殊模态。LUPI方法已证明，只需要在训练和推理时间内可用且可解释性高的模态，就可以提高多模态系统的性能。这些方法通常遵循学生-教师框架进行知识传递。在训练了所有模态的模型充当教师网络，由多个针对常见模态（每个）专门子网络和一个融合模块来组合他们的特征表示，学生通常是一个没有PI且相应的模块[2]。

初步研究采用常规知识蒸馏（KD&