语音合成论文优选:GANSpeech: Adversarial Training for High-Fidelity Multi-Speaker Speech Synthesis

声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。

欢迎关注微信公众号:低调奋进


GANSpeech: Adversarial Training for High-Fidelity Multi-Speaker Speech Synthesis

本文为Speech AI Lab, NCSOFT, Republic of Korea在2021.06.29更新的文章,主要把GAN在声学模型中的应用,从而提高自然度,具体文章链接

https://arxiv.org/pdf/2106.15153.pdf


(久违的文章阅读分享。前期我对GAN在声学模型中应用做过总结,可参考语音合成(speech synthesis)方向十:GAN在声学模型干了什么? 。前两个月我在tacotron系统上做过实验)

1 研究背景

虽然现有基于神经网络的TTS合成语音质量已经很高,但合成的特征和真实特征依然存在gap,本文使用GAN来优化该GAP,从而使MOS值更高。

2 详细设计

其实本文的架构和思想很简单,就是在Fastspeech作为生成器G,然后再添加一个辨别器D,具体结构如图1所示。但本文训练算法如算法1所示分为两个步骤,首先按照通常的训练步骤训练fastspeech,其loss采用公式1的fastspeech loss。接下来使用对抗loss,其中本文添加了feature matching loss,具体为公式4,即对辨别器每一层输出做loss,该loss可以大大提高性能。其中第二步的生成器的loss为公式5。

3 实验

首先看一下原始的Fastspeech的语谱图比较平滑,本文的GANSpeech的语谱图则较为清晰。table 1对比了fastspeech效果,在fastspeech添加GAN大大提高MOS值。table 2把feature matching loss应用到声码器VocGan,从而提高声码器的表现。

4 总结

本文把GAN应用到声学模型中,从而减轻生成的feature和GT之间的gap,从而使语谱图更信息,合成的语音更自然。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我叫永强

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值