音频数字识别(free-spoken-digit-dataset)
刚开始学习深度学习和音频知识,使用keras和FSDD数据自己写了一个音频数字的识别,水平比较低,别骂太凶(TnT).
数据来源
https://github.com/Jakobovski/free-spoken-digit-dataset,该数据包含数字0 - 9,每个数字有300个数据,共3000个。
数据处理
我先随机打乱这3000个数据,将前面2700个作为训练数据,最后3000个作为测试数据。
特征提取
1、对音频数据使用16K的频率进行采样
2、使数据均值为0,方差为1
3、提取mfcc特征
4
原创
2020-12-02 15:55:29 ·
1383 阅读 ·
0 评论