python声音分类_Python音频信号分类MFCC特征神经网络

本文介绍了尝试使用MFCC特征和PyBrain的神经网络进行声音情感分类,但遇到了分类效果不佳的问题。作者将音频文件分为训练集和测试集,尽管训练样本数量充足,网络在特定类别上的预测成功率极低。问题可能出在数据预处理或网络架构上,作者分享了MFCC特征提取过程,并寻求改进预测准确性的建议。
摘要由CSDN通过智能技术生成

我试图把声音信号从语音到情感进行分类。为此,我提取音频信号的MFCC特征,并将其输入到一个简单的神经网络(由PyBrain的BackpropTrainer训练的前馈网络)。不幸的是结果非常糟糕。从这5个班级来看,网络似乎总是会产生同样的结果。在

我有5个情感类和大约7000个有标签的音频文件,我把它们分开,这样每个类的80%用于训练网络,20%用于测试网络。在

其思想是使用小窗口并从中提取MFCC特征来生成大量的训练示例。在评估中,来自一个文件的所有窗口都会被评估,并且大多数投票决定预测标签。在Training examples per class:

{0: 81310, 1: 60809, 2: 58262, 3: 105907, 4: 73182}

Example of scaled MFCC features:

[ -6.03465056e-01 8.28665733e-01 -7.25728303e-01 2.88611116e-05

1.18677218e-02 -1.65316583e-01 5.67322809e-01 -4.92335095e-01

3.29816126e-01 -2.52946780e-01 -2.26147779e-01 5.27210979e-01

-7.36851560e-01]

Layers________________________: 13 20 5 (also tried 13 50 5 and 13 100 5)

Learning Rate_________________: 0.01 (also tried 0.1 and 0.3)

Training epochs_______________: 10 (error rate does not improve at all during training)

Truth ta

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值