语音合成论文优选: A Neural Text-to-Speech Model Utilizing Broadcast Data Mixed with Background Music

最新推荐文章于 2024-06-25 01:01:00 发布

我叫永强

最新推荐文章于 2024-06-25 01:01:00 发布

阅读量334

点赞数

分类专栏：语音合成论文文章标签：语音识别人工智能深度学习

本文链接：https://blog.csdn.net/liyongqiang2420/article/details/114843497

版权

语音合成论文专栏收录该内容

104 篇文章 61 订阅

订阅专栏

声明：语音合成论文优选系列主要分享论文，分享论文不做直接翻译，所写的内容主要是我对论文内容的概括和个人看法。如有转载，请标注来源。

欢迎关注微信公众号：低调奋进

A Neural Text-to-Speech Model Utilizing Broadcast Data Mixed with Background Music

该文章是Speech AI Lab, NCSOFT Corp., Republic of Korea在2021.03.04更新的文章，主要的研究工作是使用带音乐噪声的广播数据来进行高质量的TTS系统训练，具体文章链接

https://arxiv.org/pdf/2103.03049.pdf

（我发现很多研究者对韩国的文章都有些偏见，其实完全没有必要，计算机学科的好处就是其开源程度比其它学科高，可以花一周时间跑跑实验即可。本文章的方法对我以前的个性化系统有借鉴意义。我以前做个性化的基础模型是使用大量噪声数据和干净数据来训练的，但也可以添加做denoise后的数据）

1 背景

获取大量用来训练TTS的干净数据的成本很大，但从网络上媒体获取带音乐的广播数据的成本低很多，因此本文研究使用带背景音乐的语音来训练高质量的TTS系统。

2 详细设计

本文的主要设计如图1所示，其中包括两个网络：music filter和 GST-TTS。其中music filter主要用来过滤掉背景音乐，该文章提到做过分离处理的语音和干净的语音是有很大的区别的，因此对滤过的音频进行质量标注工作，即TTS中AQC(quality classifier )。GST-TTS中的GST标注音频的质量，为了使其更关注音频质量，所以添加分类的辅助网络。另外本篇文章的TTS系统使用DCTTS，该系统我以前讲解过，可参考语音合成论文优选：Guided Attention DCTTS。

3 实验

table 1和table2是对muisc filter进行测试，其度量pesq（perceptual evaluation of speech quality)值越大越好，SER(syllable error rate)越小越好。table1可以看出muisc filter网络过滤掉music信息。table2显示过滤后的音频在0-5db情况变好，但大于10db的音频做filter则损坏了原始音频信息，图2展示了其语谱图的情况。图3展示了GST+MF+Aux对音频质量分类情况。table 3和4对合成音频客观和主观的评测，可以发现本文方案使用少量干净数据和过滤后的数据训练的系统可以很好接近完全使用大量干净数据的系统。