前言
多模态情感分析是一个新兴的研究领域,旨在使机器能够识别、解释和表达情感。通过跨模态交互,我们可以得到说话人更全面的情感特征。(BERT)是一种有效的预训练语言表示模型。然而,以往的研究大多只基于文本数据,如何通过引入多模态信息来学习更好的表示仍然值得探索。在本文中,我们提出了跨模态的BERT(CM-BERT),它依赖于文本和音频模态的交互来微调预先训练好的BERT模型。
作为CM-BERT的核心单元,, masked multimodal attention 通过结合文本信息和音频模态信息来动态调整单词的权重
贡献
- 提出了一个跨模态的BERT(CM-BERT)模型,该模型引入了音频模态的信息,以帮助文本模态对预先训练好的BERT模型进行微调。
- 我们设计了一种新型的mask多模态注意(masked multimodal attention),它可以通过两种注意之间的相互作用动态调整单词的权重
模型结构
文本方向
- 文本过预训练BERT 得到 最后一层encoder 的结果 作为文本输入
- 通过1维卷积 将文本特征维度 进行缩小 , 缩小到和声音特征维度相同
- 为了防止点集过大 对其进行放缩
声音方向
- COVAREP 提取 语音特征
- P2FA 进行文本和语言的对齐
- 使用 zero Padding 至 长度文本声音序列相同
Masked Mulitmodal Attention
这是这个Attention 的结构
- Q 和 K 同源 且 使用Relu 进行算权重
- 通过加权计算出 两个模态的融合表示
其中wt 表示每个单词的权重 wa 表示 声音的权重, b表示偏置
- 通过mask机制 解决 sequence padding 问题, solfmax算权重
和Transformer里面的mask机制是一样的,
- 将BERT 得到的单词向量进行加权
残差连接和预测
类似 Transformer的 encoder 的结构, 只不过X 表示 原来没加权的模态
实验结果
只用两个模态 效果最好, 有点好用
心得
- attention 机制 基本是一样的 所谓的mask 是为了去 去除padding 的影响
- 不是跨模态的attention 其中的Q, K 都是相同的 , 本质是self-attention
- 最后的权重是乘以 文本模态,而权重的得来是两个部分, 其实就相当于 文本模态的 self-attention 然后加上 KV为声音, Q为文本的attention
- 加权和残差