首先想说的就是这个数据集,官方给的介绍也太敷衍了,完全是没有价值的介绍。
EMO-DB数据集是由柏林工业大学录制的德语情感语音库,由10位演员(5男5女)对10个语句(5长5短)进行7种情感(中性/nertral、生气/anger、害怕/fear、高兴/joy、悲伤/sadness、厌恶/disgust、无聊/boredom)的模拟得到,共包含800句语料,采样率48kHz(后压缩到16kHz),16bit量化。语料文本的选取遵从语义中性、无情感倾向的原则,且为日常口语化风格,无过多的书面语修饰。语音的录制在专业录音室中完成,要求演员在演绎某个特定情感前通过回忆自身真实经历或体验进行情绪的酝酿,来增强情绪的真实感。经过20个参与者(10男10女)的听辨实验,得到84.3%的听辨识别率。
这个数据集经过听辨测试后保留男性情感语句233句,女性情感语句302句,共535句。其中语句内容包含日常生活用语的5个短句和5个长句,具有较高情感自由度,不包含某一特定情感倾向。采用16kHZ采样,16bit量化,并以WAV格式保存文件。
我自己做实验的时候也用了这个数据集。 音频的采样频率16kHz,每一个点用16bit的长度存储。数据集不大,只有535条语音数据,情感的标签在文件名的倒数第二位记录着。如下图,‘F’,‘N’,'W’都是不同的情感标签。
把每一条音频文件打开之后,将每点幅值画出来,如图所示:
详细的标签对照如下表,数据集都是以德语单词的首字母标记的,也就是下表的右两列。
其中单个字母对应的情感是:
B(无聊),D(厌恶),N(中性版),W-Arger(麻烦),L-Langeweile(无聊),E-Ekel(讨厌),A-Angst(恐惧),F-Freude(欢乐),T-Trauer(悲伤),N-neutral version(中性版)。