C#基于NAudio的声音识别（二）——MFCC+SVM/BP

最新推荐文章于 2024-08-08 08:22:56 发布

马超514

最新推荐文章于 2024-08-08 08:22:56 发布

阅读量4.6k

点赞数 1

文章标签： Emgucv MFCC SVM BP NAudio

本文链接：https://blog.csdn.net/qq_26996385/article/details/80169911

版权

本文是关于C#中使用NAudio库进行声音识别的续篇，主要涉及MFCC特征提取和SVM、BP神经网络的结合应用。作者分享了在实践中遇到的问题及解决方案，包括处理MFCC特征长度不一的方法、EmguCV不同版本的训练文件读写差异以及SVM和BP的使用经验。尽管SVM在某些情况下表现不佳，但BP能取得较好的分类效果。

摘要由CSDN通过智能技术生成

书接上文，切割后的文件转换特征为MFCC（细节不表了，网搜的代码）。声音的特征和识别最好的组合绝对不是MFCC+SVM（后面我会讲为什么），我只是怎么怎么方便怎么来，看到这的准备做声音识别的同学请果断变道。

有了特征值就可以作为训练素材了，Emgucv版本更新快，不同版本的分类器参数设置方式不一样，这可以参见我以前的类似博客。

以下将走过的坑分享一下：

1.不定长声音的MFCC也不定长（废话），解决不定长，我用了人工指定的方式，即指定MFCC特征的个数，多的丢，少的补零。仅个人实践表明，特征越多分类效果越好，所以，多补零吧。

 string[] MFCCa = MFCCs.Split(',');
                for (int j = 0; j < chanum; j++)
                {
                    if (j > MFCCa.Length - 2)//存的时候多了个“，”，所以回退一位
                    {
                        trainDate[i, j] = 0;
                    }
                    else
                    {
                        trainDate[i, j] = Convert.ToSingle(MFCCa[j]);
                    }

                    trainLab[i, 0] = 1;
                }<