EMO-DB数据集介绍(即berlin的那个数据集)

最新推荐文章于 2025-04-01 10:38:24 发布

醒了的追梦人

最新推荐文章于 2025-04-01 10:38:24 发布

阅读量8.8k

点赞数 6

分类专栏：语音识别工具文章标签： EMO-DB berlin

本文链接：https://blog.csdn.net/qq_33472146/article/details/96435561

版权

工具同时被 2 个专栏收录

27 篇文章

订阅专栏

语音识别

13 篇文章

订阅专栏

首先想说的就是这个数据集，官方给的介绍也太敷衍了，完全是没有价值的介绍。

EMO-DB数据集是由柏林工业大学录制的德语情感语音库,由10位演员(5男5女)对10个语句(5长5短)进行7种情感(中性/nertral、生气/anger、害怕/fear、高兴/joy、悲伤/sadness、厌恶/disgust、无聊/boredom)的模拟得到,共包含800句语料,采样率48kHz(后压缩到16kHz),16bit量化。语料文本的选取遵从语义中性、无情感倾向的原则,且为日常口语化风格,无过多的书面语修饰。语音的录制在专业录音室中完成,要求演员在演绎某个特定情感前通过回忆自身真实经历或体验进行情绪的酝酿,来增强情绪的真实感。经过20个参与者(10男10女)的听辨实验,得到84.3%的听辨识别率。

这个数据集经过听辨测试后保留男性情感语句233句，女性情感语句302句，共535句。其中语句内容包含日常生活用语的5个短句和5个长句，具有较高情感自由度，不包含某一特定情感倾向。采用16kHZ采样，16bit量化，并以WAV格式保存文件。

我自己做实验的时候也用了这个数据集。音频的采样频率16kHz，每一个点用16bit的长度存储。数据集不大，只有535条语音数据，情感的标签在文件名的倒数第二位记录着。如下图，‘F’,‘N’,'W’都是不同的情感标签。
在这里插入图片描述