语音合成论文优选:Fre-GAN: Adversarial Frequency-consistent Audio Synthesis

声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要对文章简略概括。如有转载,请标注来源。

欢迎关注微信公众号:低调奋进


低调奋进迎来新的伙伴加入,本文由迎风飞扬进行文章的分享,欢迎更多伙伴的加入。


Fre-GAN: Adversarial Frequency-consistent Audio Synthesis

此篇文章是Department of Artificial Intelligence, Korea University, Seoul, Korea在2021.6.6日发表的文章,主要是在HifiGAN的基础上,改进了生成器和判别器,可以提高生成语音的MOS值。具体文章链接 https://arxiv.org/abs/2106.02297


1、研究背景

尽管最近的声码器已经极大的提升了合成语音的音质,但是与GT相比在频谱上仍然存在gap。这样的一种差别就会导致 spectral artifacts 比如说hissing noise or robotic sound, 从而会导致音质的下降.

为此,提出了FreGAN,它可以输出高质量的音频,与GT相比在MOS上只有0.03的差别。

2、详细设计

FreGAN采用了 RCG(resolution-connected generator) 和 resolution-wise discriminators 来学习频谱上的不同频段。由于传统的下采样方法(比如average pool)忽略了高频部分,为此作者采用了DWT(离散小波变换)保留了所有的信息并且保持了正交性。

生成器

与HiFiGAN不同的是,作者采用了RCG

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我叫永强

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值