语音信号处理-概念（三）：FBank特征、MFCC特征（梅尔频率倒谱系数）【由于二者蕴含信息较少，已不适合这个大数据时代。但有些任务由于其本身的特殊性质，还是会使用到MFCC谱。如情感语音转换任务】

u013250861

已于 2024-02-14 12:41:58 修改

阅读量1.1k

点赞数

分类专栏： Audio 文章标签：语音识别算法人工智能 MFCC

于 2022-06-14 22:53:37 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013250861/article/details/125283787

版权

Audio 专栏收录该内容

43 篇文章 35 订阅 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

语音识别中，特征提取至关重要，MFCC（梅尔频率倒谱系数）作为常用特征，结合了人耳感知特性和语音产生机制。本文详细介绍了MFCC的提取过程，包括预加重、分帧、加窗、FFT、梅尔滤波器组、离散余弦变换等步骤，以及在现代语音识别系统中的应用和优缺点。

摘要由CSDN通过智能技术生成

语音识别的第一步是特征提取，也就是提取语音信号中有助于理解语言内容的部分而丢弃掉其它的东西（比如背景噪音和情绪等等）。

语音的产生过程如下：语音信号是通过肺部呼出气体，然后通过声门的开启与闭合产生的周期信号。再通过声道（包括舌头牙齿）对信号调制后产生。区分语音的关键就是声道的不同形状。不同的形状就对应不同的滤波器，从而产生了不同的语音。如果我们可以准确的知道声道的形状，那么我们就可以得到不同的音素(phoneme)的表示。声道的形状体现在语音信号短时功率谱的包络(envelope)中，因此好多特征提取方法需要准确的表示包络信息。

在任意一个Automatic speech recognition 系统中，第一步就是提取特征。换句话说，我们需要把音频信号中具有辨识性的成分提取出来，然后把其他的乱七八糟的信息扔掉，例如背景噪声啊，情绪啊等等。

在这里插入图片描述
搞清语音是怎么产生的对于我们理解语音有很大帮助。人通过声道产生声音，声道的shape（形状？）决定了发出怎样的声音。声道的shape包括舌头，牙齿等。如果我们可以准确的知道这个形状，那么我们就可以对产生的音素phoneme进行准确的描述。声道的形状在语音短时功率谱的包络中显示

了解本专栏

超级会员免费看

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
语音信号处理-概念（三）：FBank特征、MFCC特征（梅尔频率倒谱系数）【由于二者蕴含信息较少，已不适合这个大数据时代。但有些任务由于其本身的特殊性质，还是会使用到MFCC谱。如情感语音转换任务】

语音识别的第一步是特征提取，也就是提取语音信号中有助于理解语言内容的部分而丢弃掉其它的东西（比如背景噪音和情绪等等）。语音的产生过程如下：语音信号是通过肺部呼出气体，然后通过声门的开启与闭合产生的周期信号。再通过声道（包括舌头牙齿）对信号调制后产生。区分语音的关键就是声道的不同形状。不同的形状就对应不同的滤波器，从而产生了不同的语音。如果我们可以准确的知道声道的形状，那么我们就可以得到不同的音素(phoneme)的表示。声道的形状体现在语音信号短时功率谱的包络(envelope)中，因此好多特征提取方法需要
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。