文献阅读(二十六):Learning Modality-Specific Representations with Self-Supervised Multi-Task Learning for Multimodal Sentiment Analysis
- 出处: CoRR abs/2102.04830 (2021)
- 标题:基于自监督多任务学习的多模态情感分析的学习模态特定表示
- 智能技术与系统国家重点实验室+清华大学计算机科学与技术系
- 代码:https://github.com/thuiar/Self-MM
- 主要内容:多模态情感分类问题,工作关注的重点是不同模态间的相互关系。有效的多模态表示应该同时考虑不同模态的一致性和差异性,但统一的多模态标签限制了差异性,因此提出自监督的标签生成模块来获得单模态标签,并通过多模态任务和单模态任务联合训练来学习模态一致性和差异性。
Abstract
Representation Learning(表示学习)是多模态学习中一项重要且具有挑战性的任务。有效的模态表示应该包含两部分特征:一致性和差异性。由于采用了统一的多模式注释,因此现有方法在捕获差异信息方面受到了限制。然而,额外的单模态注释是需要大量时间和劳动力成本。
在本文中,我们设计了基于自我监督学习策略的标签生成模块,以获取独立的单模态监督。然后,联合训练多模态和单模态任务,分别学习一致性和差异性。
此外,在训练阶段,我们设计了权重调整策略来平衡不同子任务之间的学习进度。就是:指导子任务将注意力集中在模态监督之间差异较大的样本上。
最后,我们对三个公共多模态基线数据集进行了广泛的实验。
实验结果验证了自动生成的单模态监督的可靠性和稳定性。在 MOSI 和 MOSEI 数据集