论文笔记-AAAI21@基于自监督学习和多任务学习的多模态表示

论文信息
论文全名
Learning Modality-Specific Representations with Self-Supervised Multi-Task Learning for Multimodal Sentiment Analysis
论文会议:AAAI2021
论文地址
https://ojs.aaai.org/index.php/AAAI/article/view/17289/17096
代码地址
https://github.com/thuiar/Self-MM


论文背景
这篇论文的研究领域是多模态情感分析,也就是同时输入文本、视频和音频3个模态,要求判断多模态的情感。通常的多模态数据集中仅仅包含多模态(multi-model)的情感,不包括单个模态(文本、视频、音频)的情感,而多模态标签在某些情况下不能反映单模态的情感。例如,图1所示的反讽例子,多模态的情感是消极,而文本模态的情感是积极的。
yu et al.[1]提出了一个标注了单模态情感的多模态数据集,并且通过实验证明单模态标签的存在可以使模型学习到更多的信息。但是不足之处是单模态标注需要耗费很大的人力。因此,这篇论文提出使用自监督学习策略来自动地生成单模态标签,并且使用多任务学习同时训练多模态任务与3个单模态任务。
在这里插入图片描述

图1:多模态标签与多模态标签的区别


论文方法
首先给出论文模型图如下
在这里插入图片描述

从图中可以看出模型左部分对应多模态,右部分对应文本、音频、视频3个单模态。使用预训练模型BERT提取文本中包含的信息,使用LSTM提取音频和视频中包含的信息。最后将3个模态的表示拼接起来通过多层全连接网络进行分类。单模态任务也是使用全连接网络进行分类。模型图中ULGM代表单模态标签生成模块。
1.单模态标签生成ULGM
作者认为单模态标签和多模态标签是高度相关的,假设计算模态表示与模态中心点的中心距离为α,作者认为单模态的α与多模态的α的比值约等于单模态标签与多模态标签的比值,通过这一关系计算出单模态标签距离多模态标签的偏移,进而得出单模态标签。计算公式如图3所示。
在这里插入图片描述

2.基于动量的单模态标签更新策略
单模态标签生成是与模态表示相关的,而随着模型参数的更新,模态表示一直在变化,因此生成的单模态标签是不稳定的,论文中设计了一种基于动量的更新策略,更新标签时同时考虑历史值与新生成的值。更新公式如下。
在这里插入图片描述
其中i代表第i个epoch,用多模态标签初始化单模态标签。


实验结果
论文在3个数据集上表现出了较好的结果,如下图所示。
在这里插入图片描述
在这里插入图片描述


参考文献
[1] Yu, W.; Xu, H.; Meng, F.; Zhu, Y.; Ma, Y.; Wu, J.; Zou, J.; and Yang, K. 2020a. CH-SIMS: A Chinese Multimodal Sentiment Analysis Dataset with Fine-grained Annotation of Modality. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 3718–3727. Online: Association for Computational Linguistics. doi: 10.18653/v1/2020.acl-main.343. URL https://www.aclweb. org/anthology/2020.acl-main.343.


最后欢迎大家关注公众号NLP学习者
在这里插入图片描述

  • 4
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值