Baidu Expressive TTS《Multi-reference Tacotron by Intercross Training for Style Disentangling...》

今天照例总结回顾一下看过的一篇论文,来自百度2019年的《Multi-reference Tacotron by Intercross Training for Style Disentangling,Transfer and Control in Speech Synthesis》

首先说一下当前Expressive TTS的研究背景问题,其一就是过于复杂的风格表示像感情和韵律信息等无法有一个较为客观的衡量标准,也就无法进行明确的监督训练。另一个就是当前的基础模型解耦出的特征信息独立性不强,或者语音特征被表示的类别过少致使模型的表征较为单一且噪声多,鲁棒性差。

为此各种模型便从上文进行改进,下面就是百度提出的一款多参考编码器模型
在这里插入图片描述

在这里插入图片描述
首先文章提出了多参考编码器的构想,能同时对多种style进行建模,以此来对声音中的信息进行解耦分离,然后在合成时利用解耦的多种相对独立的特征信息和说话人的相关信息就能够控制特定的语音样式的生成

文中对三类风格进行细化评估:说话人,情感和韵律。然后为了进行分类便对三类风格进行了实例化。300说话人||快乐、悲伤、愤怒、恐惧、迷惑、惊讶和中立||新闻、故事、广播、诗歌和呼叫中心。

在这里插入图片描述
这个式子是说第n个子编码器的后验分布应该和相同风格的实例提供的第n个风格类相同
训练过程从{相同的风格类中挑选一个参考,一个作目标训练}转为{从N个参考风格挑选N个作为输入,随机挑选一个目标T,然后选取N个与其某一指定风格相同的目标作为一个组R,然后使用(R,T)训练}
在这里插入图片描述
为了使子分类器更高的解离,所以又引入了样式分类损失来明确自己要学习的style信息,使用正交性约束来增强每个自编码器嵌入的独立性

LOSS=loss_intercorss train+ β loss_classification+ γ loss_orthogonality

最后论文实现了:
1 style disentangling:对输入音频进行不同角度的风格拆解,如说话人,音调,情绪,语速等
2 style transfer:不同分离style之间的自由组产生新的声音
3 style control:风格形式可以通过在每个编码器中实例线性插值来控制产生的音频

论文地址: 点击此处.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值