特征提取
上节已经对声音文件有了一个基本的认识,本节主要介绍一段声音文件如何输入到模型以及之后的训练输出。已经有了数据,那么数据如何输入到模型呢?不可能直接输入数据的采样值吧,那显然不现实。此处首先介绍最通用的MFCC(梅尔倒谱)特征提取,至于其和梅尔频谱以及Fbank分数的区别之后再说。
import os
import librosa
import pandas as pd
import numpy as np
import progressbar as progressbar
def path_class(data