1.数据与项目文件解读
数据文件目录如下所示,需要注意的是,我们并不能直接对声音进行建模,而需要对声音数据进行预处理,从而得到一系列数值特征,然后对特征进行建模,特征数据存储到processed文件夹中
2.环境配置
pip install librosa
librosa主要负责声音数据的预处理
pip install pysptk
有些环境需要C环境,需要安装visual studio
pip install pyworld
3.数据预处理与声音特征提取
运行preprocess.py,指定参数--dataset VCC2016
(1)声音信号的预处理
- 首先,进行16KHZ重采样,即每秒采用16k次
- 然后,进行预加重,通过来说,高频信号价值更大,于是我们补偿高频信号,让高频信号权重更大一些
- 分帧,类似时间窗口,得到多个特征段
代码实现:使用librosa进行读取
def load_wavs(dataset: str, sr):
"""
`data`: contains all audios file path.
`resdict`: contains all wav files.