语音处理技术
uruz_L
uruz
展开
-
【语音数字信号处理】有关幅度谱、相位谱以及利用二者合成频谱
一、幅度谱clean_spec = librosa.stft(clean_sig, win_length=320, hop_length=160, n_fft=320)mag = np.abs(clean_spec)mag即得到的幅度谱二、相位谱clean_spec = librosa.stft(clean_sig, win_length=320, hop_length=160, n_fft=320)phase = np.angle(clean_spec)phase即得到的相位谱原创 2021-04-29 17:08:55 · 3630 阅读 · 0 评论 -
音频特征
1. 最基本那肯定是STFT,说白了就是FFT加窗。有人肯定说这不算是feature,因为这是raw data,但是现在深度学习已经越来越多的使用这种raw data作为“feature” 输入到网络让模型自己学习其中的特征。其物理含义也十分明确:就是把时间信号转换为时间-频率的信号,根据FFT的窗长和选择的窗函数来决定时间-频率分辨率的tradeoff。说白了就是直接让你看每一段时间内的频率成分。从人类感知的角度来说,在连续的声音中人耳感知和分析的是短时间的一段段信号,所以这也是使用STFT的一个原因。原创 2021-01-23 20:00:16 · 951 阅读 · 0 评论