语音合成论文优选：GANSpeech: Adversarial Training for High-Fidelity Multi-Speaker Speech Synthesis

最新推荐文章于 2022-11-03 18:19:48 发布

我叫永强

最新推荐文章于 2022-11-03 18:19:48 发布

阅读量421

点赞数 1

分类专栏：语音合成论文文章标签：语音识别人工智能深度学习机器学习 tts

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liyongqiang2420/article/details/118358876

版权

语音合成论文专栏收录该内容

104 篇文章 61 订阅

订阅专栏

声明：语音合成论文优选系列主要分享论文，分享论文不做直接翻译，所写的内容主要是我对论文内容的概括和个人看法。如有转载，请标注来源。

欢迎关注微信公众号：低调奋进

GANSpeech: Adversarial Training for High-Fidelity Multi-Speaker Speech Synthesis

本文为Speech AI Lab, NCSOFT, Republic of Korea在2021.06.29更新的文章，主要把GAN在声学模型中的应用，从而提高自然度，具体文章链接

https://arxiv.org/pdf/2106.15153.pdf

（久违的文章阅读分享。前期我对GAN在声学模型中应用做过总结，可参考语音合成（speech synthesis）方向十：GAN在声学模型干了什么？。前两个月我在tacotron系统上做过实验）

1 研究背景

虽然现有基于神经网络的TTS合成语音质量已经很高，但合成的特征和真实特征依然存在gap，本文使用GAN来优化该GAP,从而使MOS值更高。

2 详细设计

其实本文的架构和思想很简单，就是在Fastspeech作为生成器G,然后再添加一个辨别器D,具体结构如图1所示。但本文训练算法如算法1所示分为两个步骤，首先按照通常的训练步骤训练fastspeech，其loss采用公式1的fastspeech loss。接下来使用对抗loss，其中本文添加了feature matching loss,具体为公式4，即对辨别器每一层输出做loss,该loss可以大大提高性能。其中第二步的生成器的loss为公式5。

3 实验

首先看一下原始的Fastspeech的语谱图比较平滑，本文的GANSpeech的语谱图则较为清晰。table 1对比了fastspeech效果，在fastspeech添加GAN大大提高MOS值。table 2把feature matching loss应用到声码器VocGan,从而提高声码器的表现。

4 总结

本文把GAN应用到声学模型中，从而减轻生成的feature和GT之间的gap,从而使语谱图更信息，合成的语音更自然。

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
语音合成论文优选：GANSpeech: Adversarial Training for High-Fidelity Multi-Speaker Speech Synthesis

声明：语音合成论文优选系列主要分享论文，分享论文不做直接翻译，所写的内容主要是我对论文内容的概括和个人看法。如有转载，请标注来源。欢迎关注微信公众号：低调奋进GANSpeech: Adversarial Training for High-Fidelity Multi-Speaker Speech Synthesis本文为Speech AI Lab, NCSOFT, Republic of Korea在2021.06.29更新的文章，主要把GAN在声学模型中的应用，从而提高自然度，具体文章链接
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

我叫永强 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。