Python实现BP网络并进行语音识别（四）

最新推荐文章于 2022-03-07 21:36:14 发布

踢飞足球

最新推荐文章于 2022-03-07 21:36:14 发布

阅读量712

点赞数 4

分类专栏： Python MFCC BP算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39263280/article/details/95314220

版权

Python 同时被 3 个专栏收录

7 篇文章 0 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

title: Python实现BP网络并进行语音识别（四）
date: 2019-06-09 20:45:40
tags: [python, BP, 语音识别]

针对BP网络模型只适合固定大小的输入，我们对音频信号的MFCC系数进行二次特征提取，即从数百帧MFCC中提取出特征最大值，作为输入BP网络的信号。
由于简单三层网络，可能会存在学习能力不强的情况。一开始我设计了一个20，100，3的网络，保证对MFCC系数的充分学习。模型在训练了200轮后顺利达到了 $\left(0.99,0.99\right)$ ，训练集和验证集为 $\left(0.8,0.2\right)$ ，总样本数量为697。训练结果说明MFCC可以提供独特的特征进行人声识别。但是在训练的过程中，我发现，训练结果准确率在195轮到200轮之间有一个飞速上涨的过程，平均每轮上涨8%。我怀疑是数据分布太相似，导致准确率最后才上升。
为了验证我的假设，我训练了多组模型，发现准确率到达95%的轮次和隐藏层节点的个数成正比，与数据分布比例成反比。
由分析可以知道，MFCC系数对音频特征的表征能力非常强，仅需要利用简单BP网络在极少次的训练下就可以取得非常好的效果。
综上所述，在提取音频MFCC特征最大值系数后，BP网络仅需要 $\left(20,3,3\right)$ 三层网络结构实现通过音频信号实现三个人的识别。
代码Demo已经上传Github，欢迎大家指点批评

关注

4
点赞
踩
2

收藏

觉得还不错? 一键收藏
8
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 8

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。