多模态情感识别_Interspeech 2019 | 基于多模态对齐的语音情感识别

本文介绍了滴滴AI Labs在Interspeech 2019会议上提出的基于多模态对齐的语音情感识别模型,该模型在IEMOCAP数据集上取得最佳性能,用于智能客服场景中的情绪分析和应答。
摘要由CSDN通过智能技术生成

本文来自公众号滴滴科技合作,AI科技评论获授权转载,如需转载请联系原公众号。

Interspeech 2019

ba350baf2140b326c40dbcd8a2ad76ff.png

Interspeech 2019现场

作者 | 滴滴AI Labs编辑 | 唐里

语音领域顶级学术会议 Interspeech于2019年9月15-19日在奥地利格拉茨举行。

在 Interspeech 会议期间,来自全球学术界和产业界的研究人员齐聚一堂,讨论语音领域的新技术,包括语音合成、语音识别、说话人识别等细分领域。在会议上展示的研究成果代表着语音相关领域的最新研究水平和未来的发展趋势。

本次会议共吸引2180篇论文投递,其中75%来自学界,22%来自工业界。

84ad6f0b15e49c5507704ada21a71e00.png

论文地址:https://arxiv.org/abs/1909.05645

语音情感识别是一个非常具有挑战性的问题,因为人们总是以微妙和复杂的方式传达情感。对于语音情感识别,当前的方法主要包括:1)直接通过语音信号特征;2)通过语音识别的文本特征;3)融合音频-文本的多模态特征。当前的方法忽视了音频和识别文本在时序空间的交互。

在本篇论文中,滴滴提出基于多模态对齐的语音情感识别的模型。在语音情感识别的公开数据集IEMOCAP取得了当前最好的性能。

基于多模态的语音情感识别的方法可以用于智能客服(如客服质检,机器人客服互动式语音应答),其中机器人客服质检主要是根据语音和识别文本对客服和用户的情绪进行分析,辅助质检,机器人客服互动式语音应答主要是根据语音和识别文本对进线用户的情绪进行分析,合理应答。

模型

7d7f74812dec8030550cce042e023134.png

本文提出的多模态对齐的语音情感识别的模型,主要包括语音的编码器模块,语音识别文本的编码器模块,以及基于注意力机制的多模态融合网络模块,具体的模型结构图如上图。

语音的编码器模块

我们首先获取语音的低维度的基于帧的MFCC特征,然后用BiLSTM对音频基于帧进行高维特征表示。

语音识别文本的编码器模块

我们首先预训练(Pretraining)来获取单词的词向量(Word Embedding)表示,然后用BiLSTM对ASR识别文本基于单词进行高维特征表示。

基于注意力机制的多模态融合网络模块

我们利用Attention机制动态学出每个单词文本特征的权重和每帧语音的特征,然后加权求和得到每个单词的语音对齐的特征,接着我们将对齐的特征和文本的特征拼接并用BiLSTM来做特征的融合,最后我们用最大池化层和全连接层进行情感分类。

实验

论文在语音情感识别的公开数据集IEMOCAP评测了模型。IEMOCAP数据集是由10个演员录制,对话主要包括10个情感。论文与之前的方法保持一致使用了主要的4个情感(生气,开心,中性,伤心)。

e86aee41d4e0773a01b9170f9f3534c8.png

在实验中,论文选择 1)直接通过语音信号特征 2)通过语音识别的文本特征 3)融合音频-文本的多模态特征这三类方法的对比,通过上图(Table 1),可以看出本论文的模型在加权精确度(WA)和非加权精确度(UA)评价指标都有显著提高,证明了学习音频和文本对齐信息的多模学习方法的有效性。

6b028e755ebe438b2bd85d80b7b572d4.png

此外,论文也分析了识别结果和对齐方式的影响,通过Table 2(上图),可以看出如果使用数据集提供的正确的文本,相比识别文本能有一定的提升。基于attention的动态的基于情感的对齐信息,相比基于ASR的对齐方式更为有效。

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值