python动物语音识别_GitHub - bestpower/Speech_Recognition_Test: 利用Python+TensorFlow实现语音识别...

智慧的烟火

于 2021-01-29 14:09:25 发布

阅读量1.1k

点赞数

文章标签： python动物语音识别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42525798/article/details/113508285

版权

本文介绍了使用Python和TensorFlow构建语音识别系统的过程，包括环境配置、所需库、数据下载、模型构建思路、运行方法及注意事项。项目涉及将音频转换为MFCC特征，通过BiRNN模型进行训练，并提供了训练和测试数据的处理方法。

摘要由CSDN通过智能技术生成

Speech_Recognition_Test

中文语音识别

1、项目运行环境

Windows7x64

Pycharm 2018.2.4

Python 3.6.2

独立显卡 GTX1050Ti

2、项目运行所需的库文件

Numpy(用于矩阵运算)

tensorflow-gpu(GPU版本有助于加快训练速度)

scipy.io.wavfile(用于读取音频文件)

python_speech_features(用于获取音频的梅尔倒普系数)

3、项目训练所需数据

下载地址：http://www.openslr.org/18/

下载文件：data_thchs30.tgz

4、项目构建思路

1)将样本数据读入内存(包括音频数据和标签数据)

2)建立批次获取样本的函数

3)将语音数据转换成梅尔倒频谱系数(MFCC数据)(将时域数据转换成频域数据)

4)将MFCC转换成训练格式数据时间列和频率特征系数行的矩阵

5)文本转换成向量

6)用于读取文件操作

7)对齐该批次的音频数据

8)将文本数据转换成稀疏矩阵(也就是密集矩阵转换成稀疏矩阵)

9)字向量转换成文字

10)构建网络结构进行模型训练：BiRNN_model

11)调用cpu函数

12)读取待测试数据(包括音频数据和标签数据)

13)将数据代入已训练好的模型中

14)打印识别信息对比识别效果

5、项目运行方法

配置conf目录下的conf.ini中的各项，主要是配置训练和测试所需的数据文件的路径，训练模型和log文件保存路径

<

最低0.47元/天解锁文章

智慧的烟火

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
python动物语音识别_GitHub - bestpower/Speech_Recognition_Test: 利用Python+TensorFlow实现语音识别...

Speech_Recognition_Test中文语音识别1、项目运行环境Windows7x64Pycharm 2018.2.4Python 3.6.2独立显卡 GTX1050Ti2、项目运行所需的库文件Numpy(用于矩阵运算)tensorflow-gpu(GPU版本有助于加快训练速度)scipy.io.wavfile(用于读取音频文件)python_speech_features(用于获取音频...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。