论文笔记-AAAI21@基于自监督学习和多任务学习的多模态表示

最新推荐文章于 2024-03-16 16:37:08 发布

loganzha

最新推荐文章于 2024-03-16 16:37:08 发布

阅读量1.2k

点赞数 4

文章标签：自然语言处理神经网络 pytorch

本文链接：https://blog.csdn.net/loganzha/article/details/118211434

版权

论文信息
论文全名
Learning Modality-Specific Representations with Self-Supervised Multi-Task Learning for Multimodal Sentiment Analysis
论文会议：AAAI2021
论文地址
https://ojs.aaai.org/index.php/AAAI/article/view/17289/17096
代码地址
https://github.com/thuiar/Self-MM

论文背景
这篇论文的研究领域是多模态情感分析，也就是同时输入文本、视频和音频3个模态，要求判断多模态的情感。通常的多模态数据集中仅仅包含多模态(multi-model)的情感，不包括单个模态(文本、视频、音频)的情感，而多模态标签在某些情况下不能反映单模态的情感。例如，图1所示的反讽例子，多模态的情感是消极，而文本模态的情感是积极的。
yu et al.[1]提出了一个标注了单模态情感的多模态数据集，并且通过实验证明单模态标签的存在可以使模型学习到更多的信息。但是不足之处是单模态标注需要耗费很大的人力。因此，这篇论文提出使用自监督学习策略来自动地生成单模态标签，并且使用多任务学习同时训练多模态任务与3个单模态任务。
在这里插入图片描述

图1：多模态标签与多模态标签的区别

论文方法
首先给出论文模型图如下
在这里插入图片描述

从图中可以看出模型左部分对应多模态，右部分对应文本、音频、视频3个单模态。使用预训练模型BERT提取文本中包含的信息，使用LSTM提取音频和视频中包含的信息。最后将3个模态的表示拼接起来通过多层全连接网络进行分类。单模态任务也是使用全连接网络进行分类。模型图中ULGM代表单模态标签生成模块。
1.单模态标签生成ULGM
作者认为单模态标签和多模态标签是高度相关的，假设计算模态表示与模态中心点的中心距离为α，作者认为单模态的α与多模态的α的比值约等于单模态标签与多模态标签的比值，通过这一关系计算出单模态标签距离多模态标签的偏移，进而得出单模态标签。计算公式如图3所示。
在这里插入图片描述

2.基于动量的单模态标签更新策略
单模态标签生成是与模态表示相关的，而随着模型参数的更新，模态表示一直在变化，因此生成的单模态标签是不稳定的，论文中设计了一种基于动量的更新策略，更新标签时同时考虑历史值与新生成的值。更新公式如下。
在这里插入图片描述
其中i代表第i个epoch，用多模态标签初始化单模态标签。

实验结果
论文在3个数据集上表现出了较好的结果，如下图所示。
在这里插入图片描述

参考文献
[1] Yu, W.; Xu, H.; Meng, F.; Zhu, Y.; Ma, Y.; Wu, J.; Zou, J.; and Yang, K. 2020a. CH-SIMS: A Chinese Multimodal Sentiment Analysis Dataset with Fine-grained Annotation of Modality. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 3718–3727. Online: Association for Computational Linguistics. doi: 10.18653/v1/2020.acl-main.343. URL https://www.aclweb. org/anthology/2020.acl-main.343.

最后欢迎大家关注公众号NLP学习者
在这里插入图片描述