语音识别（读取。预加重。分帧。加窗）

不想秃头的程序

于 2024-08-11 07:15:00 发布

阅读量322

点赞数 10

文章标签：语音识别人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_58209778/article/details/140968266

版权

1.音频文件读取

sr：表示采样率

mono：bool，是布尔类型，表示是否将信号转换为单声道

offset：float，后面跟的是浮点型，表示在此时间之后开始阅读（以秒为单位）

duration：float，表示的是持续时间，也就是只加载这么长的音频（单位为秒）

y：返回的y值表示音频时间序列

预加重

对语音的高频部分进行加重，去除口唇辐射的影响，增加语音的高频分辨率。假设输入信号第n个采样点为 x[n]，预加重公式如下：一阶FIR滤波器表示：

y[n]=x[n]−αx[n−1], α=0.97 (α的取值范围0.9-1）

预加重以后的图像与原图像相比较，原图像的幅值很大，在预加重以后的频谱中，对基频谱线幅值有一定的抑制，高频端的幅值有所提升。

分帧

傅里叶变换要求输入信号是平稳的，但是语音信号从整体上来讲是不平稳的，如果把不平稳的信号作为输入，傅里叶变换将无意义。

虽然语音信号具有时变特性，但是在一个短时间范围内（一般认为在10~30ms），其特性基本保持不变即相对稳定，因而可以将其看作是一个准稳态过程，即语音信号具有短时平稳性，因此我们需要将语音信号进行分帧处理。

分帧就是将原始语音信号分成大小固定的N段语音信号，这里每一段语音信号都被称为一帧，帧长一般取10到30ms。分帧一般采用交叠分段的方法，是为了使帧与帧之间平滑过渡，保持其连续性。前一帧和后一帧的交叠部分称为帧移，帧移与帧长的比值一般取为0~1/2。

加窗

每帧信号通常要与一个平滑的窗函数相乘，让帧两端平滑地衰减到零，加窗相当于把每一帧里面对应的元素变成它与窗序列对应元素的乘积。

x1 中的每个元素表示了第一帧中对应位置的采样点序号。

x2 中的每个元素表示了第一帧中对应位置的采样点在时间轴上的位置，单位是秒。

不想秃头的程序

关注

10
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。