最近琢磨怎么组合特征,英语水平有限,在知网上看了几篇最近硕士毕业论文对声音特征进行处理的文章,可能看得很不全面,但是发现我看得几篇都是MFCC+一个或者两个时域特征,具体实现方式也没描述清楚。附带一点自己的猜想。
MFCC+时域特征
因为MFCC是倒谱域上特征,其实前面一系列操作也是FFT之类的操作后结果,可以算是频域特征,我试过叠加频域特征,但是叠加后结果只会下降,因为才学习这个,不能从根本上去分析,猜测可能是因为有重复甚至说有干扰产生。而几篇硕士论文不能不说机智,因为测试的几种时域特征最次就是对识别率基本没什么影响,或者一点点提升。然后,想起了我最开始用时域特征都不正确的问题:没有对帧。就是一帧数据的MFCC对应上这一帧的例如短时能量。
p:哎,没人带,自己琢磨很难,又不是这个专业的。
算了,不写了,再去试试其他想法。。