语音特征提取流程
深度学习常用的时域-频域特征:
- Spectrogram: 语谱图
- Mel spectrogram 梅尔谱
Step 3: Framing 分帧
由于人耳能听到的声音时长至少为10ms,所以要将数字信号分帧成一个个可以听的块,也就是分帧
一帧中采样点的个数通常取2的幂,连续帧通常重复一半采样点,典型值是:256-8192
frame_duration = (1 / sr) * K K是一帧内采样点的个数
时域特征提取流程
频域特征提取流程
频域特征是在时域特征的基础上加窗再做傅里叶变换得来的
先说Step 5: Fourier transform 傅里叶变换
将时域信息转换为频域信息的关键步骤就是对时间帧进行傅里叶变换操作
如果不加窗就直接进行FT的话会造成频谱泄露 (spectral leakage)