A Speech Emotion Recognition Framework for Better Discrimination of Confusions-语音论文阅读

最新推荐文章于 2024-05-26 09:45:40 发布

正经的曹同学

最新推荐文章于 2024-05-26 09:45:40 发布

阅读量282

点赞数 2

分类专栏：论文文章标签：深度学习人工智能机器学习语音识别情感识别

本文链接：https://blog.csdn.net/crh170/article/details/120361148

版权

6 篇文章

订阅专栏

本文介绍了一种用于改进情绪识别中混淆问题的框架。该框架通过使用triplet loss和数据增强技术来提升模型对于相似情绪标签的区分能力。实验结果显示，此方法有效改善了happy和neutral标签之间的混淆。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章介绍

论文名字 A Speech Emotion Recognition Framework for Better Discrimination of Confusions来自interspeech_2021
作者 Jiawang Liu, Haoxiang Wang
论文背景当前许多的研究中，比较常见的问题是一些特定的情绪被严重错误分类，从数据集IEMOCAP数据集中给出的混淆矩阵中可以知道，普遍的一个问题是大多数的happy标签的话语被误分类为中性，这种情况作者认为是由于neutral和happy两个标签的激活水平比较相似，而导致模型不能够区分出来，一般而言，在数据量多的情况下，预测的标签一般都是会向数量级多的量进行偏移，这就是作者设计这个基础的来源
相关论文来源，比如triplet loss 和triplet selection 是来自这篇CV方向的论文FaceNet: A Unified Embedding for Face Recognition and Clustering，data augmentation 部分的论文来自于interspeech_2019SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition,而主体架构CNN-LSTM架构是参考自Efficient Emotion Recognition from Speech Using Deep Learning on
Spectrograms

在这里插入图片描述