CM-BERT: Cross-Modal BERT for Text-Audio Sentiment Analysis 阅读笔记

前言

多模态情感分析是一个新兴的研究领域,旨在使机器能够识别、解释和表达情感。通过跨模态交互,我们可以得到说话人更全面的情感特征。(BERT)是一种有效的预训练语言表示模型。然而,以往的研究大多只基于文本数据,如何通过引入多模态信息来学习更好的表示仍然值得探索。在本文中,我们提出了跨模态的BERT(CM-BERT),它依赖于文本和音频模态的交互来微调预先训练好的BERT模型。

作为CM-BERT的核心单元,, masked multimodal attention 通过结合文本信息和音频模态信息来动态调整单词的权重

贡献

  • 提出了一个跨模态的BERT(CM-BERT)模型,该模型引入了音频模态的信息,以帮助文本模态对预先训练好的BERT模型进行微调。
  • 我们设计了一种新型的mask多模态注意(masked multimodal attention),它可以通过两种注意之间的相互作用动态调整单词的权重

模型结构

请添加图片描述

文本方向

  • 文本过预训练BERT 得到 最后一层encoder 的结果 作为文本输入
  • 通过1维卷积 将文本特征维度 进行缩小 , 缩小到和声音特征维度相同
  • 为了防止点集过大 对其进行放缩
    在这里插入图片描述

声音方向

  • COVAREP 提取 语音特征
  • P2FA 进行文本和语言的对齐
  • 使用 zero Padding 至 长度文本声音序列相同

Masked Mulitmodal Attention

这是这个Attention 的结构
在这里插入图片描述

  • Q 和 K 同源 且 使用Relu 进行算权重

请添加图片描述

  • 通过加权计算出 两个模态的融合表示

请添加图片描述

​ 其中wt 表示每个单词的权重 wa 表示 声音的权重, b表示偏置

  • 通过mask机制 解决 sequence padding 问题, solfmax算权重

请添加图片描述

和Transformer里面的mask机制是一样的,

  • 将BERT 得到的单词向量进行加权

请添加图片描述

残差连接和预测

类似 Transformer的 encoder 的结构, 只不过X 表示 原来没加权的模态

实验结果

请添加图片描述

只用两个模态 效果最好, 有点好用

心得

  • attention 机制 基本是一样的 所谓的mask 是为了去 去除padding 的影响
  • 不是跨模态的attention 其中的Q, K 都是相同的 , 本质是self-attention
  • 最后的权重是乘以 文本模态,而权重的得来是两个部分, 其实就相当于 文本模态的 self-attention 然后加上 KV为声音, Q为文本的attention
  • 加权和残差
  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值