OK,沉迷了快两个星期,终于有进展了啊啊啊!!!
这段时间内心崩溃,感觉毫无思路,但是我没放弃!!!看了许多论文,然后代码在这个星期也终于调通了。不过还是有很多地方值得优化,后面再继续努力吧!
其实我个人觉得语音识别这一块的商用还不够,情感识别就更别说了,而且识别率这一块有待提升。
开始正题
数据集用的是EMO-DB数据集。并以此充当训练集,测试集自己想用哪些音频就可以用哪些音频,但是命名和文件路径得符合代码编写的规则。音频时长最好不要超过6秒,以便获得比较好的性能。
一些重要函数:
获取数据集
预测情感函数
训练模型获取数据
项目中重要文件及对应的功能:
audioFeatureExtraction.py :音频特征提取,从音频中提取功能
globalvars.py:全局变量
train.py:训练模型
predict.py:根据音频预测情感
整个框架采用的是双LSTM+attention机制,attention机制是通过逻辑回归实现的。
训练数据
预测情感结果
情感分类有以下几种:生气,无聊,厌恶,焦虑(害怕),幸福,悲伤,中立。
现在模型的预测准确率在百分之六十几,后面会通过继续学习来提高精度的。
生命不息,奋斗不止,Fighting!!!
定个小目标:即将拥有腹肌SZY!!!