语音信号处理:分帧【从宏观上看,帧长必须足够短来保证帧内信号是平稳的】【从微观上来看,帧长又必须包括足够多的振动周期】

语音信号处理通过分帧来分析傅里叶变换,确保帧内信号平稳。帧长通常在20~50毫秒,小于音素持续时间,以分析频率。加窗操作避免频谱泄漏,帧移处理减少信息损失。通过识别帧的频谱和共振峰,结合声学特征提取如MFCC,最终实现语音识别。
摘要由CSDN通过智能技术生成

语音信号处理常常要达到的一个目标,就是弄清楚语音中各个频率成分的分布

做这件事情的数学工具是傅里叶变换。傅里叶变换要求输入信号是平稳的,当然不平稳的信号你想硬做也可以,但得到的结果就没有什么意义了。

而语音在宏观上来看是不平稳的——你的嘴巴一动,信号的特征就变了。但是从微观上来看,在比较短的时间内,嘴巴动得是没有那么快的,语音信号就可以看成平稳的,就可以截取出来做傅里叶变换了。这就是为什么语音信号要分帧处理,截取出来的一小段信号就叫一「帧」。

如下图:这段语音的前三分之一和后三分之二明显不一样,所以整体来看语音信号不平稳。红框框出来的部分是一帧,在这一帧内部的信号可以看成平稳的。

请添加图片描述

那么一帧有多长呢?帧长要满足两个条件:

  • 从宏观上看,它必须足够短来保证帧内信号是平稳的
    前面说过,口型的变化是导致信号不平稳的原因,所以在一帧的期间内口型不能有明显变化,即一帧的长度应当小于一个音素的长度。
    正常语速下,音素的持续时间大约是 50~200 毫秒,所以
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值