语音识别(读取。预加重。分帧。加窗)

1.音频文件读取

sr:表示采样率

mono:bool,是布尔类型,表示是否将信号转换为单声道

offset:float,后面跟的是浮点型,表示在此时间之后开始阅读(以秒为单位)

duration:float,表示的是持续时间,也就是只加载这么长的音频(单位为秒)

y:返回的y值表示音频时间序列

预加重

  对语音的高频部分进行加重,去除口唇辐射的影响,增加语音的高频分辨率。假设输入信号第n个采样点为 x[n],预加重公式如下一阶FIR滤波器表示:

y[n]=x[n]−αx[n−1], α=0.97 (α的取值范围0.9-1)

预加重以后的图像与原图像相比较,原图像的幅值很大,在预加重以后的频谱中,对基频谱线幅值有一定的抑制,高频端的幅值有所提升。

分帧

傅里叶变换要求输入信号是平稳的,但是语音信号从整体上来讲是不平稳的,如果把不平稳的信号作为输入,傅里叶变换将无意义。

虽然语音信号具有时变特性,但是在一个短时间范围内(一般认为在10~30ms),其特性基本保持不变即相对稳定,因而可以将其看作是一个准稳态过程,即语音信号具有短时平稳性,因此我们需要将语音信号进行分帧处理。

分帧就是将原始语音信号分成大小固定的N段语音信号,这里每一段语音信号都被称为一帧,帧长一般取10到30ms。分帧一般采用交叠分段的方法,是为了使帧与帧之间平滑过渡,保持其连续性。前一帧和后一帧的交叠部分称为帧移,帧移与帧长的比值一般取为0~1/2。

加窗

每帧信号通常要与一个平滑的窗函数相乘,让帧两端平滑地衰减到零,加窗相当于把每一帧里面对应的元素变成它与窗序列对应元素的乘积。

x1 中的每个元素表示了第一帧中对应位置的采样点序号。

x2 中的每个元素表示了第一帧中对应位置的采样点在时间轴上的位置,单位是秒。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值