总结一下近两周做的事情。
目标:有3个说话人,以4种不同的情感,分别说相同的200句话,建立模型供语音情感识别使用
过程:1、选择建立模型需要的特征及可用工具
具体内容:
1、建立模型:对3个人分别建立model,这就需要分别准备这3个人的训练数据
2、仅给出对于 people1 的数据处理过程:
例如(情感1可以这样处理): 1
1:0.324 2:0.265 3:0.54 4:0.34 ....
39:0.495
情感2可定义label为 2,情感3定义label为 3,情感4定义label为 4。
(4)把4种情感的 4*190=760 句wav的mfcc特征写入一个txt,作为 train_data.txt
(5)把4种情感的 4*10=40 句wav的40个mfcc文件放在一起,可标号从1.txt 到 40.txt
3、(用python写的一些代码)
libsvm的 python 文件夹里,有svmutil.py 及 svm.py 文件,看下代码,知道可以用于train和test
得到训练模型:people1.model
把训练集里的1.txt 至 40.txt 分别进行测试,譬如 1.txt 测试的时候,是按帧来测试得到每帧的label,统计最多的label所属作为 1.txt 的类别即可。
训练结果,正确率高达 98.33% ,低至 83.33% (原因在于自己抽了一部分数据进行的训练,而不是全部的数据,可能抽的不好或者数据冗余)。
现在very tired , 回头再写