VGGish提取特征过程
输入数据为wav音频文件,音频文件的特征提取过程如下:
1. 将音频重采样为16kHz单声道音频;
2. 使用25 ms的Hann时窗,10 ms的帧移对音频进行短时傅里叶变换得到频谱图;
3. 通过将频谱图映射到64阶mel滤波器组中 计算mel声谱;
4. 计算 log(mel-spectrum + 0.01),得到稳定的 mel 声谱,所加的 0.01 的偏置是为了避免对 0 取对数;
5. 然后这些特征被以 0.96s的时长被组帧,并且没有帧的重叠,每一帧都包含 64 个mel 频带,时长 10ms(即总共 96 帧)。
VGGish模型输出数据格式为[nums_frames, 128],其中nums_frames为帧长,nums_frames=音频时长/0.96。