用神经网络实现语音分类

多个文章介绍了用卷积网络实现语音分类的思想和实现过程, 在数据准备过程中需要关注的一些点总结如下:

1.数据集 urbandsound8K

2.数据分类10

3.基本思路:

3.1) 对音频段计算每帧MFCC

3.2)多个帧MFCC构成时间相关的输入序列

3.3).利用lstm或rnn网络,多mfcc序列进行分类

4.音频预处理

urbandsound8K 数据集中的音频片段采样率,通道数,采样位数有不同,比如48k,44,1K采样, 单双通道,16bit,24bit音频均有。故先要统一转换成16K采样,16bit音频和单声道。

4.1)双通道转单通道方法:

4.1.1)仅取某一通道数据(本文取此方法)

4,1.2)取两通道数据平均值

4.2)音频重采样

要考虑不同情况,比如48k转换为16K, 8K转换为16K. 此处采用fft实现音频重采样,最大限度减少过程中的质量损失

4.3)采样位数变化

4.3.1)8比特转16比特。注意8比特音频为无符号数 ,中值为128,转换到16比特时要减去128再乘以256

4.3.2)24比特转16比特。24比特音频采用小端存储,为有符号数,最大值为2^23.可以先转为【-1,1】之间的32位浮点数,然后再乘以32767变为16比特音频数据

5.mfcc计算

主要是采用fft3w库计算fft,然后计算标准的mfcc值,基本过程为:预加重,加窗,fft变换,计算平方能量值,  DCT变换,解卷积,倒谱提升

6.神经网络选择

可以基于CNN也可以基于lstm或rnn.从实际测试情况看,采用cnn网络具有更好的分辨准确率。而加入了mfcc一阶差分的比不加入具有更高的分辨准确率,初步训练后,测试准确率为75%

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值