集智书童 | 多教师特权知识精馏在多模态表达识别中的应用 !

本文来源公众号“集智书童”,仅用于学术分享,侵权删,干货满满。

原文链接:多教师特权知识精馏在多模态表达识别中的应用 !

人类的情感是一种复杂的现象,通过面部表情、声音语调、身体语言和生理信号来传达和感知。多模态情感识别系统可以表现良好,因为它们可以从不同的传感器中学习互补和冗余的语义信息。在现实世界的场景中,测试时可能只存在用于训练的部分模态。学习特权信息允许模型利用在训练期间才可用的额外模态的数据。

最先进的特权知识蒸馏(PKD)方法已经被提出,用于从教师模型(结合不同的流行和特权模态)到学生模型(没有访问特权模态)的蒸馏。然而,这样的PKD方法使用点对点匹配,并没有明确捕捉到多模态空间中的关系信息。最近,已经提出了捕获和蒸馏结构信息的方法,并超越了点对点的PKD方法。但是,基于结构相似性的PKD方法主要局限于从单个联合教师表示中学习,这限制了它们的鲁棒性、准确性和从多样多模态源中学习的能力。

在本文中,作者引入了一种带有自蒸馏的多教师PKD(MT-PKDOT)方法,用于在蒸馏到学生之前对不同的教师表示进行对齐。MT-PKDOT采用基于正则化最优传输(OT)的结构相似性知识蒸馏机制。在损失函数中添加了一个额外的约束,以明确对学生空间中的质心进行对齐。

所提出的MT-PKDOT方法在两个具有挑战性的情感计算任务上进行了验证:在Affwild2上的愉悦度/唤醒度预测和在Biovid数据库上的疼痛估计。结果表明,作者提出的方法可以超越最先进的PKD方法。在Biovid数据上,该方法将仅视觉的基线提高了5.5%。

在Affwild2数据集上,所提出的方法在愉悦度和唤醒度上分别比仅视觉的基线提高了3%和5%。允许学生从多个多样源中学习被证明可以提高准确性,并隐式避免了负迁移到学生模型。代码已公开可用:https://github.com/haseebaslam95/MT-PKDOT

I Introduction

在野外中进行情绪识别(ER)面临着独特的挑战,这些挑战包括环境变化、由于种族多样性导致的领域漂移,以及姿态变化以及某些模态部分或完全缺失等。这导致了越来越多的人对多模态ER(MER)系统的兴趣,该系统旨在模拟人类对情绪的类似于人类的识别过程[1]。由于跨模态信息能捕获冗余和互补性,因此多模态ER系统通常比单一模态系统表现更好[4,5]。尽管捕捉和融合多个模态会带来额外的成本,但这在有控制的环境(训练和测试时间都有所有模态可用)中的确能够提高精确度。然而,在实际场景中,某些模态的获取具有挑战性或代价高昂。为了克服这个问题,已有类似联合交叉注意力[6]的方法提出,可以动态地评估和权衡各个模态的重要性。但是,在有些情况下,某些模态是完全缺失的,对这些情况的处理效果有限。

MER系统包括多种模态,如面部、音频、文本和生理信号等。其中一些模态在野外更容易获取,如电极记录(EEG)、心电图(ECG)和肌电图(EMG)等生理信号[7] [8],相比之下更具挑战性。然而,在某些情况下,这些生理信号比其他信号更有价值。例如,已经在疼痛估计等任务中,生理信号的表现超过了视觉模态[9]。然而,在实际场景中,生理信号并不总是可用。由于这种系统限制了受试者的自由移动,并需要专门的设备,大多数方法通常依赖于在设计和部署时都可用以及可用和可解释性高的模态,导致系统性能较低。然而,利用训练时间内仅可用的特殊信息(即拥有的优势模态)或许可以在测试时提升系统性能。

最近,机器学习中的使用特殊信息(LUPI)范式被引入用于情感计算[2,3,10]。机器学习中的特殊信息(PI)是在模型训练时间而非推理时间内可用的信息[11]。对于多模态系统,PI通常是仅在训练时间可用且只有训练和推理时间可用的特殊模态。LUPI方法已证明,只需要在训练和推理时间内可用且可解释性高的模态,就可以提高多模态系统的性能。这些方法通常遵循学生-教师框架进行知识传递。在训练了所有模态的模型充当教师网络,由多个针对常见模态(每个)专门子网络和一个融合模块来组合他们的特征表示,学生通常是一个没有PI且相应的模块[2]。

初步研究采用常规知识蒸馏(KD&

内容概要:本文介绍了一种新颖的知识蒸馏框架,用于高效提升单幅图像超分辨(SISR)的表现,利用真实高分辨率(HR)图像作为训练时特有的特权信息。该框架采用教师网络和学生网络的方法,通过对HR到低分辨率(LR)退化过程建模并提取紧凑特征的方式,在不同输入情况下传递有用的知识至学生网络,特别是改进了快速高效的超分辨率卷积神经网络(FSRCNN)。具体而言,该框架使用了模拟损失(imitation loss)、特征提取与解码器结构以及特征蒸馏等机制。实验表明这种方法不仅提升了现有模型的效果,在标准测试上表现良好,并且对内存消耗及计算量都维持在一个合理的范围内,确保了高效性和实用性。 适合人群:从事机器学习特别是深度学习领域的研究人员及从业者,以及对计算机视觉中图像超分辨率有兴趣的研究学者和技术爱好者。 使用场景及目标:该方法主要适用于需要将单帧低分辨率图像恢复为高清图像的应用环境中,比如医学成像质量改善、面部识别细节还原、数字取证等。通过使用本框架可以有效地增强已有轻量化超分网络的性能而不需要额外复杂的架构设计或参数调整。 其他说明:本研究强调了一个新范式的提出,即通过特权信息提高图像超分辨率效果,同时探讨了未来研究方向如特定于模型的知识蒸馏损失函数的设计可能性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值