文章介绍
- 论文名字 A Speech Emotion Recognition Framework for Better Discrimination of Confusions来自interspeech_2021
- 作者 Jiawang Liu, Haoxiang Wang
- 论文背景 当前许多的研究中,比较常见的问题是一些特定的情绪被严重错误分类,从数据集IEMOCAP数据集中给出的混淆矩阵中可以知道,普遍的一个问题是 大多数的happy标签的话语被误分类为中性,这种情况 作者认为是由于neutral和happy两个标签的激活水平比较相似,而导致模型不能够区分出来,一般而言,在数据量多的情况下,预测的标签一般都是会向数量级多的量进行偏移,这就是作者设计这个基础的来源
- 相关论文来源,比如triplet loss 和triplet selection 是来自这篇CV方向的论文FaceNet: A Unified Embedding for Face Recognition and Clustering,data augmentation 部分的论文来自于interspeech_2019SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition,而主体架构CNN-LSTM架构是参考自Efficient Emotion Recognition from Speech Using Deep Learning on
Spectrograms
结构分析
- 系统结构图
- 虽然说这个系统结构里面的文献也给出了 可以自己看看里面的结构情况,但是有的方面还是不能让人那么理解,整个系统流程是
1、将整个数据集的语音分成三个组块儿(triplet模式),
2、Data Augmentation 比如时间偏移(将对数mel谱图在图像的时间步长(W,t-W)上随机一个点选择一个点随机像左边或者是右边移动);频率遮蔽(在连续的mel频率通道上将一部分进行评比);时间遮蔽(同理),在我的理解上 认为就是横轴和竖轴进行随机的一个区间直接进行掩蔽掉
3、将1通道的图像输入的CNN里面,一共四个CNN 每个CNN都有一个batch normalization
4、输出的结果开始输入到双向的LSTM(BI-LSTM)
5、接着直接进入到不同的triplet选择中分别有两种,第一种是semi-
hard triplets
第二种是 hard triplets
这两种其实是进行分别计算loss的
6、直接开始进入全连接层进行计算,两种loss分别进行损失函数计算,Adam进行优化器优化
7、最后直接进行判断结果了
实验结果
- 未使用triplet loss后的结果
- 使用triplet loss后的结果
- 具体每次增加的方法进行实验结果对比
总结讨论
这篇论文里从前人的文章里总结出了大体的架构即CNN-LSTM,然后利用数据增强和triplet的方法进行处理,在方法上能够让我知道,数据的预处理对应着结果可能有着重要的影响,利用GAN生成对抗式网络来进行另一种方法来进行数据的混淆,可能是使得数据特征变得更加清晰,这也是作者最后阐述的一些相关想法