核心点:
- 现有vocoder训练未考虑频谱到音频的一对多问题,G和D都会过拟合,导致pitch和相位不连贯等瑕疵
- 提出可微分的数据增强,旋转每个频率分量的相位,增加一对多mapping能力,增加鲁棒性
理论铺垫:
STFT
iSTFT
在很小的time-shift上,可由上式推导出:
所以在 角平面上可以做PhaseAug,
于是有以下公式,此处为PhaseAug的核心idea:任一点x[n]通过随机调phase,得到x[n]的近似;即实现调相后人耳听不出区别,但相位其实发生很大改变;以此缓解一对多问题;
相同幅度的相位旋转,在高频上有可能引起扭曲;因此加一个Kaise sinc滤波器(LPF)缓解;
模型训练:
在batch中的每个sampe都给不同的phase;
只在D上做aug;即G不变,预测出来的y_hat和y分别做aug,送给鉴别器判断(缓解鉴别器过拟合);计算对抗loss时,用y_hat_aug和y_aug指导的loss更新G,即使G可以合成相位随机偏移过的音频(缓解生成器过拟合)