语音合成(TTS) 论文优选:Controllable Emotion Transfer For End-to-End Speech Synthesis

声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。

欢迎关注微信公众号:低调奋进

Controllable Emotion Transfer For End-to-End Speech Synthesis

本文是2020.11.17号西北工业大学谢老师组的文章,文章主要做情感TTS,可以很好的迁移情感风格和控制情感强弱,具体的文章链接 https://arxiv.org/pdf/2011.08679.pdf

(一直很想做情感TTS和歌唱合唱,感觉很酷。但一直没这个机会,公司没这个业务,而且数据很贵,听说音乐干声标注的训练数据就需要上百万开销,所以还是看看文章,为以后做方案准备)

1 研究背景

情感TTS应用还是非常有趣,比如小说阅读,配音等场景。训练情感TTS需要获取情感的表征,例如愤怒,开心,嫌弃,伤心等等。现有的情感TTS存在情感混合,分离不清,情感强弱控制难的问题。针对以上问题,本文提出可以获取较好的情感TTS,并且可以进行强弱控制。demo 链接https://silyfox.github.io/iscslp-98-demo/

2 详细的系统设计

本文是在tacotron2进行修改,具体系统结构如图1所示。本系统主要有三模块四个loss:tacotron2,emotion embedding network和auxiliary newwork。emotion embedding network 把参考的音频mel谱先通过reference encoder,然后输入到emotion classifier进行情感分类,该部分的loss为L cls.src。情感的表征使用的是第二层fc的输出作为emotion embedding ,该表征输入到tacotron2的encoder中。tacotron2不再介绍,主要把语言特征生成声学特征,其loss为Ltac,该部分预测的输出mel特征输入到auxiliary network中在此进行情感分类。auxiliary network对tacotron2预测的mel特征进行分类,其loss为Lcls_tag。其中把第二层的FC输出与emotion embedding network输出的emotion embedding进行gram matrices对比,其loss为Lsty。因此系统的总LOSS如公式3。(主要auxiliary和emotion network之间style loss设计的很好)

语音合成(TTS) 论文优选:Emotion TTS

语音合成(TTS) 论文优选:Emotion TTS

3 实验结果

本实验主要验证两个方面:情感学习表征的好坏和强度控制。首先本文对每一模块对情感好坏的影响大小进行对比,结果如table1显示,全部使用每个模块的情感准确度很高。而且跟prosody-tacotron进行好坏对比,从图5可以知道,本文的model合成的情感语音更受听者喜爱。

语音合成(TTS) 论文优选:Emotion TTS

语音合成(TTS) 论文优选:Emotion TTS

对于情感强弱控制结果,图2显示本文提出方法比对比系统RA-Tacotron较优。从图3图4可以看出情感强弱控制可以很好的控制语音的特征。

语音合成(TTS) 论文优选:Emotion TTS

语音合成(TTS) 论文优选:Emotion TTS

4 总结

本文针对情感TTS设计了新的模型,主要auxiliary network和emotion embedding network设计很有意思,听了demo的确做的很好。(感觉auxiliary network的style loss设计很有趣)

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我叫永强

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值