A Speech Emotion Recognition Framework for Better Discrimination of Confusions-语音论文阅读

文章介绍

  1. 论文名字 A Speech Emotion Recognition Framework for Better Discrimination of Confusions来自interspeech_2021
  2. 作者 Jiawang Liu, Haoxiang Wang
  3. 论文背景 当前许多的研究中,比较常见的问题是一些特定的情绪被严重错误分类,从数据集IEMOCAP数据集中给出的混淆矩阵中可以知道,普遍的一个问题是 大多数的happy标签的话语被误分类为中性,这种情况 作者认为是由于neutral和happy两个标签的激活水平比较相似,而导致模型不能够区分出来,一般而言,在数据量多的情况下,预测的标签一般都是会向数量级多的量进行偏移,这就是作者设计这个基础的来源
  4. 相关论文来源,比如triplet loss 和triplet selection 是来自这篇CV方向的论文FaceNet: A Unified Embedding for Face Recognition and Clustering,data augmentation 部分的论文来自于interspeech_2019SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition,而主体架构CNN-LSTM架构是参考自Efficient Emotion Recognition from Speech Using Deep Learning on
    Spectrograms

结构分析

  • 系统结构图

在这里插入图片描述
在这里插入图片描述

  • 虽然说这个系统结构里面的文献也给出了 可以自己看看里面的结构情况,但是有的方面还是不能让人那么理解,整个系统流程是
    1、将整个数据集的语音分成三个组块儿(triplet模式),
    2、Data Augmentation 比如时间偏移(将对数mel谱图在图像的时间步长(W,t-W)上随机一个点选择一个点随机像左边或者是右边移动);频率遮蔽(在连续的mel频率通道上将一部分进行评比);时间遮蔽(同理),在我的理解上 认为就是横轴和竖轴进行随机的一个区间直接进行掩蔽掉
    3、将1通道的图像输入的CNN里面,一共四个CNN 每个CNN都有一个batch normalization 在这里插入图片描述
    4、输出的结果开始输入到双向的LSTM(BI-LSTM)
    5、接着直接进入到不同的triplet选择中分别有两种,第一种是semi-
    hard triplets
    在这里插入图片描述
    第二种是 hard triplets
    在这里插入图片描述
    这两种其实是进行分别计算loss的
    6、直接开始进入全连接层进行计算,两种loss分别进行损失函数计算,Adam进行优化器优化
    7、最后直接进行判断结果了
    在这里插入图片描述

实验结果

  • 未使用triplet loss后的结果
    在这里插入图片描述
  • 使用triplet loss后的结果
    在这里插入图片描述
  • 具体每次增加的方法进行实验结果对比
    在这里插入图片描述

总结讨论

这篇论文里从前人的文章里总结出了大体的架构即CNN-LSTM,然后利用数据增强和triplet的方法进行处理,在方法上能够让我知道,数据的预处理对应着结果可能有着重要的影响,利用GAN生成对抗式网络来进行另一种方法来进行数据的混淆,可能是使得数据特征变得更加清晰,这也是作者最后阐述的一些相关想法

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值