频域特征-Fbank

最新推荐文章于 2022-06-14 22:53:37 发布

公众号：音频探险记

最新推荐文章于 2022-06-14 22:53:37 发布

阅读量373

点赞数

本文链接：https://blog.csdn.net/Wilder_ting/article/details/128610565

版权

Fbank是一种前端处理方法，以类似人耳的方式对音频进行处理，可以提高语音识别的性能。fbank的计算流程与语谱图类似，唯一的区别就在于加了个Mel滤波器，从而使得得到的特征更逼近人耳特性。有关于Mel滤波器的相关内容可以查阅https://mp.weixin.qq.com/s/pGwO_27x8ddQF55wTSQlmA。接下来就介绍一下fbank的求取过程。
• 预加重
因为语音信号的功率谱随频率的增加而减小，因此导致语音的大部分能量都集中在低频部分，从而导致高频部分的信噪比很低。因此一般使用一阶高通滤波器去提升信号在高频部分的信噪比。

def preemphasis(signal, coeff=0.95):
    return np.append(signal[1], signal[1:] - coeff * signal[:-1])

• 分帧及加窗
有关分帧的具体原理可以参见https://mp.weixin.qq.com/s/PKBZgFXicNHghb39iyPfow。

def frame_sig(sig, frame_len, frame_step, win_func):
    '''
    :param sig: 输入的语音信号
    :param frame_len: 帧长
    :param frame_step: 帧移
    :param win_func: 窗函数
    :return: array of frames, num_frame * frame_len
    '''
    slen = len(s

最低0.47元/天解锁文章

公众号：音频探险记

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
频域特征-Fbank

Fbank是一种前端处理方法，以类似人耳的方式对音频进行处理，可以提高语音识别的性能。fbank的计算流程与语谱图类似，唯一的区别就在于加了个Mel滤波器，从而使得得到的特征更逼近人耳特性。有关于Mel滤波器的相关内容可以查阅https://mp.weixin.qq.com/s/pGwO_27x8ddQF55wTSQlmA。接下来就介绍一下fbank的求取过程。• 预加重因为语音信号的功率谱...
复制链接

扫一扫