python+keras汉字单字语音识别

最新推荐文章于 2022-12-18 07:30:00 发布

python__reported

最新推荐文章于 2022-12-18 07:30:00 发布

阅读量1.8k

点赞数 1

分类专栏： # 语音交互文章标签：深度学习 tensorflow python

本文链接：https://blog.csdn.net/python__reported/article/details/113406613

版权

语音交互专栏收录该内容

3 篇文章

订阅专栏

本文介绍了使用Python和Keras进行单字语音识别的两种方法，重点是通过MFCC特征提取和Dense层训练。在解决版本兼容问题和代码修正后，模型达到93%的测试准确率。此外，还探讨了汉字语音识别，使用百度合成数据集并进行数据增强，但目前仅调整音量，后续将加入更多增强技术以提升准确率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、两种思路

就当前学习所知，有两种语音识别的思路
1、将语音文件提取mfcc，即转为二维张量形式，然后进行dense全连接层叠层训练，当然这个也可以使用传统机器学习方法。
转为二维张量格式为：
在这里插入图片描述
2、将语音文件提取mfcc转为三维张量形式即频谱图，然后进行cnn卷积神经网络训练，看了几个资料，这个似乎准确率更高，但是比较麻烦
所以下文采取第一种方式进行尝试
频谱图形式为：

二、代码更新

采取第一种思路的代码为大佬南方朗郎：《python+keras实现语音识别》，这个代码有些小问题
1、keras版本问题
报错
在这里插入图片描述
准确的说，这个不是keras版本问题，应该是tensorflow版本的问题，tensorflow是keras的后端，我的python版本是3.8，所以安装的tensorflow版本是2.0以上的，而作者源码是建立在keras后端tensorflow1.0以上的版本，所以出现这样的错误，这样的错误会很多，一个个修改非常麻烦，但是python3.8好像没有支持的tensorflow1.0以上的版本，只有2.0以上的版本。
不过，幸运的是，我有两个python版本，一个3.7，一个3.8，python3.7有支持的tensorflow1.0以上的版本，于是我用python3.7安装了tensorflow1.15.5版本的tensorflow,
这个问题得以解决

2、代码有部分出现缺漏
报错
在这里插入图片描述
这个报错是由于num_class没有传递过来，导致label标签one-hot化不成功
打印num_class时发现num_class=0，应该为2的

在这里插入图片描述

将之传递过来
在这里插入图片描述
模型正常训练

但是准确率不行，作者有提到似乎是因为数据本身的原因，有些数据存在问题
3、代码特征处理会报list index out of range
这一行

在作者跑的语音数据集上是不需要修改的，因为都是16000,但是跑自己的数据集就要修改，因为不一定是16000
修改为：
在这里插入图片描述

data.remove(0)

dense层模型调控最优的结果为测试集上93%左右
设置为：

	model = Sequential()
    model.add(Dense(1024, activation='relu'))
    model.add(Dropout(0.2))
    model.add(Dense(512, activation='relu'))
    model.add(Dense(256, activation='relu'))
    model.add(Dense(128, activation='relu'))

三、汉字语音识别

1、数据集问题
数据集使用的是百度语音合成对3500个常用汉字进行合成的数据集，每个字大概8个不同发音人，之后进行数据增强。
数据增强主要是对波形、位移以及加噪等处理，可以参见大佬凌逆战：《音频数据增强及python实现》链接: 音频数据增强及python实现.

2、跑的结果
三个数据集，每个数据集有32个音频文件，一共96个，训练集85个，测试集15个，三分类样本数据平均，测试集结果1.0。
在这里插入图片描述

3、问题
这里的问题在于数据增强暂时只是用的音量，所以测试集与训练集可能没有什么差异，导致了这个结果，后续加噪、波形拉长等等后准确率可能会迅速下降。