语音合成论文优选: A Neural Text-to-Speech Model Utilizing Broadcast Data Mixed with Background Music

声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。

欢迎关注微信公众号:低调奋进


A Neural Text-to-Speech Model Utilizing Broadcast Data Mixed with Background Music

该文章是Speech AI Lab, NCSOFT Corp., Republic of Korea在2021.03.04更新的文章,主要的研究工作是使用带音乐噪声的广播数据来进行高质量的TTS系统训练,具体文章链接

https://arxiv.org/pdf/2103.03049.pdf

(我发现很多研究者对韩国的文章都有些偏见,其实完全没有必要,计算机学科的好处就是其开源程度比其它学科高,可以花一周时间跑跑实验即可。本文章的方法对我以前的个性化系统有借鉴意义。我以前做个性化的基础模型是使用大量噪声数据和干净数据来训练的,但也可以添加做denoise后的数据)


1 背景

获取大量用来训练TTS的干净数据的成本很大,但从网络上媒体获取带音乐的广播数据的成本低很多,因此本文研究使用带背景音乐的语音来训练高质量的TTS系统。

2 详细设计

本文的主要设计如图1所示,其中包括两个网络:music filter和 GST-TTS。其中music filter主要用来过滤掉背景音乐,该文章提到做过分离处理的语音和干净的语音是有很大的区别的,因此对滤过的音频进行质量标注工作,即TTS中AQC(quality classifier )。GST-TTS中的GST标注音频的质量,为了使其更关注音频质量,所以添加分类的辅助网络。另外本篇文章的TTS系统使用DCTTS,该系统我以前讲解过,可参考语音合成论文优选:Guided Attention DCTTS。

3 实验

table 1和table2是对muisc filter进行测试,其度量pesq(perceptual evaluation of speech quality)值越大越好,SER(syllable error rate)越小越好。table1可以看出muisc filter网络过滤掉music信息。table2显示过滤后的音频在0-5db情况变好,但大于10db的音频做filter则损坏了原始音频信息,图2展示了其语谱图的情况。图3展示了GST+MF+Aux对音频质量分类情况。table 3和4对合成音频客观和主观的评测,可以发现本文方案使用少量干净数据和过滤后的数据训练的系统可以很好接近完全使用大量干净数据的系统。

4 总结

本文使用带音乐噪声的广播数据来进行TTS系统优化,实验结果显现,该系统可以使用少量干净数据和滤过的数据可以很好接近完全使用大量干净数据的系统。(这个想法可以优化个性化系统)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我叫永强

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值