【学习小记】零基础入门语音识别Task3-特征提取（以及使用playsound播放失败的问题解决方法）

最新推荐文章于 2022-07-08 10:49:44 发布

kaguya1004

最新推荐文章于 2022-07-08 10:49:44 发布

阅读量213

点赞数

分类专栏： DATAWHALE 文章标签：人工智能机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kaguya1004/article/details/115802788

版权

DATAWHALE 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

本来是学习打卡的，一时兴起想听听处理的数据到底是个啥动静。。。遂一顿百度，最终锁定playsound，适用于.wav和.mp3格式，且算上头部声明就两行代码，完美！代码如下

from playsound import playsound
 
playsound(‘test.mp3’)

结果就报了如下的错误
在这里插入图片描述
一顿搜都没找到是为啥，其实只是需要把音频文件和代码放到同个文件夹下，害。真就人工6分钟的事人工智能6小时呗。。。

接下来进入正题。

MFCC特征提取

MFCC即Mel Frequency Cepstral Coefficents，梅尔倒谱系数，在语音识别领域中MFCC特征提取是最常用的方法。

具体步骤如下：
对语音信号进行分帧处理
用周期图(periodogram)法来进行功率谱(power spectrum)估计
对功率谱用Mel滤波器组进行滤波，计算每个滤波器里的能量
对每个滤波器的能量取log
进行离散余弦变换（DCT）变换
保留DCT的第2-13个系数，去掉其它

前两步为短时傅里叶分析，作用是得到声谱图，即频率随时间变化的表示。后几步则和梅尔倒谱有关。

第一步分帧是假设在一个很短的时间内，如20-40ms内为一个稳定系统，即一帧。注意不能简单平均分割语音，相邻的帧之间也要重合。通常以25ms为1帧，帧移为10ms，一秒信号有10帧。

傅里叶分析的东西就不多说了，主要看一下梅尔频谱和梅尔倒谱。

这里忽略不了的一个概念便是梅尔滤波器。梅尔滤波器的目标是模拟人耳对声音的感知，因为人耳对低频感知灵敏一点，高频弱一些，且并不会明显感知到声音频率的成倍或者减倍变化。一组梅尔滤波器通常26个三角滤波器，对上述得到的功率谱估计进行滤波。频率越高，滤波器就越宽。
在这里插入图片描述
最终保留这26个滤波器的能量。再对这26个点的信号进行DCT，就可以得到26个倒谱系数啦！

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【学习小记】零基础入门语音识别Task3-特征提取（以及使用playsound播放失败的问题解决方法）

本来是学习打卡的，一时兴起想听听处理的数据到底是个啥动静。。。遂一顿百度，最终锁定playsound，适用于.wav和.mp3格式，且算上头部声明就两行代码，完美！代码如下from playsound import playsound playsound(‘test.mp3’)结果就报了如下的错误一顿搜都没找到是为啥，其实只是需要把音频文件和代码放到同个文件夹下，害。真就人工6分钟的事人工智能6小时呗。。。接下来进入正题。MFCC特征提取MFCC即Mel Frequency Cepstr
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。