CM-BERT: Cross-Modal BERT for Text-Audio Sentiment Analysis 阅读笔记

最新推荐文章于 2024-03-14 16:20:55 发布

B站：阿里武

最新推荐文章于 2024-03-14 16:20:55 发布

阅读量1.9k

点赞数 3

分类专栏：多模态文章标签： bert 自然语言处理情感分析

本文链接：https://blog.csdn.net/qq874455953/article/details/121218072

版权

多模态专栏收录该内容

21 篇文章 34 订阅

订阅专栏

前言

多模态情感分析是一个新兴的研究领域，旨在使机器能够识别、解释和表达情感。通过跨模态交互，我们可以得到说话人更全面的情感特征。（BERT）是一种有效的预训练语言表示模型。然而，以往的研究大多只基于文本数据，如何通过引入多模态信息来学习更好的表示仍然值得探索。在本文中，我们提出了跨模态的BERT（CM-BERT），它依赖于文本和音频模态的交互来微调预先训练好的BERT模型。

作为CM-BERT的核心单元，, masked multimodal attention 通过结合文本信息和音频模态信息来动态调整单词的权重

贡献

提出了一个跨模态的BERT（CM-BERT）模型，该模型引入了音频模态的信息，以帮助文本模态对预先训练好的BERT模型进行微调。
我们设计了一种新型的mask多模态注意（masked multimodal attention），它可以通过两种注意之间的相互作用动态调整单词的权重

模型结构

请添加图片描述

文本方向

文本过预训练BERT 得到最后一层encoder 的结果作为文本输入
通过1维卷积将文本特征维度进行缩小，缩小到和声音特征维度相同
为了防止点集过大对其进行放缩

声音方向

COVAREP 提取语音特征
P2FA 进行文本和语言的对齐
使用 zero Padding 至长度文本声音序列相同

Masked Mulitmodal Attention

这是这个Attention 的结构
在这里插入图片描述

Q 和 K 同源且使用Relu 进行算权重

请添加图片描述

通过加权计算出两个模态的融合表示

请添加图片描述

其中wt 表示每个单词的权重 wa 表示声音的权重， b表示偏置

通过mask机制解决 sequence padding 问题， solfmax算权重

请添加图片描述

和Transformer里面的mask机制是一样的，

将BERT 得到的单词向量进行加权

请添加图片描述

残差连接和预测

类似 Transformer的 encoder 的结构，只不过X 表示原来没加权的模态

实验结果

请添加图片描述

只用两个模态效果最好，有点好用

心得

attention 机制基本是一样的 所谓的mask 是为了去去除padding 的影响
不是跨模态的attention 其中的Q， K 都是相同的，本质是self-attention
最后的权重是乘以文本模态，而权重的得来是两个部分，其实就相当于 文本模态的 self-attention 然后加上 KV为声音， Q为文本的attention
加权和残差

B站：阿里武

关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
2
评论
CM-BERT: Cross-Modal BERT for Text-Audio Sentiment Analysis 阅读笔记

前言多模态情感分析是一个新兴的研究领域，旨在使机器能够识别、解释和表达情感。通过跨模态交互，我们可以得到说话人更全面的情感特征。（BERT）是一种有效的预训练语言表示模型。然而，以往的研究大多只基于文本数据，如何通过引入多模态信息来学习更好的表示仍然值得探索。在本文中，我们提出了跨模态的BERT（CM-BERT），它依赖于文本和音频模态的交互来微调预先训练好的BERT模型。作为CM-BERT的核心单元，, masked multimodal attention 通过结合文本信息和音频模态信息来动态调整单
复制链接

扫一扫

专栏目录