语音特征提取流程:分帧、加窗、傅里叶变换

本文介绍了语音特征提取的关键步骤,包括分帧、加窗和傅里叶变换。分帧是为了模拟人耳听觉,通常选取256-8192个采样点为一帧。傅里叶变换用于将时域信息转化为频域,但不加窗会导致频谱泄漏。加窗操作通过窗函数处理每一帧,消除不完整波形影响,确保信号周期性。
摘要由CSDN通过智能技术生成

语音特征提取流程

深度学习常用的时域-频域特征:

  • Spectrogram: 语谱图
  • Mel spectrogram 梅尔谱

Step 3: Framing 分帧

由于人耳能听到的声音时长至少为10ms,所以要将数字信号分帧成一个个可以听的块,也就是分帧

一帧中采样点的个数通常取2的幂,连续帧通常重复一半采样点,典型值是:256-8192

frame_duration = (1 / sr) * K K是一帧内采样点的个数

时域特征提取流程

在这里插入图片描述

频域特征提取流程

频域特征是在时域特征的基础上加窗再做傅里叶变换得来的

在这里插入图片描述

先说Step 5: Fourier transform 傅里叶变换

将时域信息转换为频域信息的关键步骤就是对时间帧进行傅里叶变换操作

如果不加窗就直接进行FT的话会造成频谱泄露 (spectral leakage)

Spectral leakage

  • 3
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值