零基础语音识别入门baseline_task1

初步了解了baseline,并成功跑通在这里插入图片描述
然后讲一下我理解的整个baseline的过程
1.首先导入了个音频库,里面是动物吃不同食物的声音。
2.然后是特征提取以及数据集的建立,在这里插入图片描述
这里运用了mfcc的方法,在这里插入图片描述
个人理解,mfcc就是在语音识别领域,将语音物理信息(频谱包络和细节)进行编码运算得到的一组特征向量。
里面的mel滤波器组,将语音变换到mel域,mel域是仿照人耳设计的,
更符合人耳的听觉特性。
3.cnn卷积神经网络
在这里插入图片描述
卷积层,池化层,关键的两个步骤,主要我的理解是将众多特征向量的特征拟合,变成另外一些向量供机器去训练
在这里插入图片描述
一个小白的简介,如果有什么错误,欢迎大佬改正。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值