python动物语音识别_GitHub - bestpower/Speech_Recognition_Test: 利用Python+TensorFlow实现语音识别...

Speech_Recognition_Test

中文语音识别

1、项目运行环境

Windows7x64

Pycharm 2018.2.4

Python 3.6.2

独立显卡 GTX1050Ti

2、项目运行所需的库文件

Numpy(用于矩阵运算)

tensorflow-gpu(GPU版本有助于加快训练速度)

scipy.io.wavfile(用于读取音频文件)

python_speech_features(用于获取音频的梅尔倒普系数)

3、项目训练所需数据

下载地址:http://www.openslr.org/18/

下载文件:data_thchs30.tgz

4、项目构建思路

1)将样本数据读入内存(包括音频数据和标签数据)

2)建立批次获取样本的函数

3)将语音数据转换成梅尔倒频谱系数(MFCC数据)(将时域数据转换成频域数据)

4)将MFCC转换成训练格式数据时间列和频率特征系数行的矩阵

5)文本转换成向量

6)用于读取文件操作

7)对齐该批次的音频数据

8)将文本数据转换成稀疏矩阵(也就是密集矩阵转换成稀疏矩阵)

9)字向量转换成文字

10)构建网络结构进行模型训练:BiRNN_model

11)调用cpu函数

12)读取待测试数据(包括音频数据和标签数据)

13)将数据代入已训练好的模型中

14)打印识别信息对比识别效果

5、项目运行方法

配置conf目录下的conf.ini中的各项,主要是配置训练和测试所需的数据文件的路径,训练模型和log文件保存路径

<
  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值