简单说明
由于PPG Extractor 10ms版本还没有完全训练好,先用帧移5ms LJSpeech数据集顶上,注意:
- 5ms版本的仅仅是为了对比试验,以及临时等待10ms的数据,主流还是用10ms
- 代码中hop改为80
- 代码中max lenth改为2000
- MFCC不提取,直接使用之前ppgs_extractor_5ms提取的PPG,配上当前代码audio提取的标准的mel和spec
- 其余不变,但是单独形成一个项目
这是之前ppgs_extractor_5ms提取的PPG,和配合的mel和spec,但是觉得mel和spec不标准
使用linears_decoder_5ms_sch_mel_linear再提取一次mel和spec
命名为:
- mfcc_5ms_by_audio_2
- mel_5ms_by_audio_2
- spec_5ms_by_audio_2
提取标准的audio语谱图