自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 PHASEAUG: TRAINING GENERATIVE ADVERSARIAL NETWORK-BASED VOCODER WITH LIMITED DATA USING AUGMENTATION

即G不变,预测出来的y_hat和y分别做aug,送给鉴别器判断(缓解鉴别器过拟合);计算对抗loss时,用y_hat_aug和y_aug指导的loss更新G,即使G可以合成相位随机偏移过的音频(缓解生成器过拟合)于是有以下公式,此处为PhaseAug的核心idea:任一点x[n]通过随机调phase,得到x[n]的近似;即实现调相后人耳听不出区别,但相位其实发生很大改变;相同幅度的相位旋转,在高频上有可能引起扭曲;在batch中的每个sampe都给不同的phase;角平面上可以做PhaseAug,

2024-07-15 14:11:13 275

原创 STREAMVC: REAL-TIME LOW-LATENCY VOICE CONVERSION

流式推理:

2024-05-13 20:36:54 202

原创 ParlerTTS: Natural language guidance of high-fidelity text-to-speech with synthetic annotations

控制情感/风格/音色的现有方法梳理:数据处理模型实验评估。

2024-05-11 15:50:26 587 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除