声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。
欢迎关注微信公众号:低调奋进
Controllable Emotion Transfer For End-to-End Speech Synthesis
本文是2020.11.17号西北工业大学谢老师组的文章,文章主要做情感TTS,可以很好的迁移情感风格和控制情感强弱,具体的文章链接 https://arxiv.org/pdf/2011.08679.pdf
(一直很想做情感TTS和歌唱合唱,感觉很酷。但一直没这个机会,公司没这个业务,而且数据很贵,听说音乐干声标注的训练数据就需要上百万开销,所以还是看看文章,为以后做方案准备)
1 研究背景
情感TTS应用还是非常有趣,比如小说阅读,配音等场景。训练情感TTS需要获取情感的表征,例如愤怒,开心,嫌弃,伤心等等。现有的情感TTS存在情感混合,分离不清,情感强弱控制难的问题。针对以上问题,本文提出可以获取较好的情感TTS,并且可以进行强弱控制。demo 链接https://silyfox.github.io/iscslp-98-demo/
2 详细的系统设计
本文是在tacotron2进行修改,具体系统结构如图1所示。本系统主要有三模块四个loss:tacotron2,emotion embedding network和auxiliary newwork。emotion embedding network 把参考的音频mel谱先通过reference encoder,然后输入到emotion classifier进行情感分类,该部分的loss为L cls.src。情感的表征使用的是第二层fc的输出作为emotion embedding ,该表征输入到tacotron2的encoder中。tacotron2不再介绍,主要把语言特征生成声学特征,其loss为Ltac,该部分预测的输出mel特征输入到auxiliary network中在此进行情感分类。auxiliary network对tacotron2预测的mel特征进行分类,其loss为Lcls_tag。其中把第二层的FC输出与emotion embedding network输出的emotion embedding进行gram matrices对比,其loss为Lsty。因此系统的总LOSS如公式3。(主要auxiliary和emotion network之间style loss设计的很好)
3 实验结果
本实验主要验证两个方面:情感学习表征的好坏和强度控制。首先本文对每一模块对情感好坏的影响大小进行对比,结果如table1显示,全部使用每个模块的情感准确度很高。而且跟prosody-tacotron进行好坏对比,从图5可以知道,本文的model合成的情感语音更受听者喜爱。
对于情感强弱控制结果,图2显示本文提出方法比对比系统RA-Tacotron较优。从图3图4可以看出情感强弱控制可以很好的控制语音的特征。
4 总结
本文针对情感TTS设计了新的模型,主要auxiliary network和emotion embedding network设计很有意思,听了demo的确做的很好。(感觉auxiliary network的style loss设计很有趣)