Baidu Expressive TTS《Multi-reference Tacotron by Intercross Training for Style Disentangling...》

最新推荐文章于 2024-05-25 10:02:38 发布

ウルトラマン.

最新推荐文章于 2024-05-25 10:02:38 发布

阅读量348

点赞数 1

分类专栏：论文阅读与总结文章标签：机器学习 tts

本文链接：https://blog.csdn.net/qq_35668477/article/details/115837987

版权

论文阅读与总结专栏收录该内容

11 篇文章 3 订阅

订阅专栏

今天照例总结回顾一下看过的一篇论文，来自百度2019年的《Multi-reference Tacotron by Intercross Training for Style Disentangling,Transfer and Control in Speech Synthesis》

首先说一下当前Expressive TTS的研究背景问题，其一就是过于复杂的风格表示像感情和韵律信息等无法有一个较为客观的衡量标准，也就无法进行明确的监督训练。另一个就是当前的基础模型解耦出的特征信息独立性不强，或者语音特征被表示的类别过少致使模型的表征较为单一且噪声多，鲁棒性差。

为此各种模型便从上文进行改进，下面就是百度提出的一款多参考编码器模型
在这里插入图片描述

在这里插入图片描述
首先文章提出了多参考编码器的构想，能同时对多种style进行建模，以此来对声音中的信息进行解耦分离，然后在合成时利用解耦的多种相对独立的特征信息和说话人的相关信息就能够控制特定的语音样式的生成

文中对三类风格进行细化评估：说话人，情感和韵律。然后为了进行分类便对三类风格进行了实例化。300说话人||快乐、悲伤、愤怒、恐惧、迷惑、惊讶和中立||新闻、故事、广播、诗歌和呼叫中心。

在这里插入图片描述
这个式子是说第n个子编码器的后验分布应该和相同风格的实例提供的第n个风格类相同
训练过程从{相同的风格类中挑选一个参考，一个作目标训练}转为{从N个参考风格挑选N个作为输入，随机挑选一个目标T，然后选取N个与其某一指定风格相同的目标作为一个组R，然后使用(R,T)训练}
在这里插入图片描述
为了使子分类器更高的解离，所以又引入了样式分类损失来明确自己要学习的style信息，使用正交性约束来增强每个自编码器嵌入的独立性