声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。
欢迎关注微信公众号:低调奋进
Enhancing Monotonicity for Robust Autoregressive Transformer TTS
本文是清华大学在interspeech 2020上发表优化transformerTTS,使其更加鲁棒,具体的文章链接
https://www.isca-speech.org/archive/Interspeech_2020/pdfs/1751.pdf
1 研究背景
基于transformer的tts系统如下图所示,因为transformer缺少对句子时序性的信息,因此常出现漏字,跳字的问题。本文通过把stepwise monotnoic attention应用到transfomer中因此使transformerTTS更加鲁棒,实验结果显示合成的语音质量MOS提高,而且系统更加鲁棒。
2 详细设计
首先看一下multi-head attention的计算公式1~3,其中为了添加位置信息添加position embeddig公式为4~6。而st