PHASEAUG: TRAINING GENERATIVE ADVERSARIAL NETWORK-BASED VOCODER WITH LIMITED DATA USING AUGMENTATION

核心点:

  • 现有vocoder训练未考虑频谱到音频的一对多问题,G和D都会过拟合,导致pitch和相位不连贯等瑕疵
  • 提出可微分的数据增强,旋转每个频率分量的相位,增加一对多mapping能力,增加鲁棒性

理论铺垫:

STFT

iSTFT

在很小的time-shift上,可由上式推导出:

所以在 角平面上可以做PhaseAug,

于是有以下公式,此处为PhaseAug的核心idea:任一点x[n]通过随机调phase,得到x[n]的近似;即实现调相后人耳听不出区别,但相位其实发生很大改变;以此缓解一对多问题;

相同幅度的相位旋转,在高频上有可能引起扭曲;因此加一个Kaise sinc滤波器(LPF)缓解;

模型训练:

在batch中的每个sampe都给不同的phase;

只在D上做aug;即G不变,预测出来的y_hat和y分别做aug,送给鉴别器判断(缓解鉴别器过拟合);计算对抗loss时,用y_hat_aug和y_aug指导的loss更新G,即使G可以合成相位随机偏移过的音频(缓解生成器过拟合)

实验结果

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值