声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。
欢迎关注微信公众号:低调奋进
RobuTrans: A Robust Transformer-Based Text-to-Speech Model
本文是电子科技大学计算机科学与工程学院发表在AAAI-20上的文章,主要解决TTS的对齐的鲁棒性问题,具体的文章链接https://pdfs.semanticscholar.org/6246/b5a7b962577d4e15bb80637a000df77bd3f6.pdf?_ga=2.103062528.1670017614.1611716199-2045376942.1610888043
1 研究背景
基于encoder-attention-decoder的语音合成系统经常出现漏字,重复字,含混不清等问题(图5所示),虽然已经很多工作提出monotonic attention, forward attention等强制对齐的机制,但依然无法解决问题。本文在transformerTTS(图1所示)的基础上进行修改,获得更加鲁棒的