声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。
欢迎关注微信公众号:低调奋进
Parallel Tacotron: Non-Autoregressive and Controllable TTS
本文是google在2020.10.22发表的文章,主要是tactron并行化,从而提高速度,具体的文章链接
https://arxiv.org/pdf/2010.11439.pdf
(想写Parallel Tacotron2,顺便把这篇写简略介绍一下,看过的读者可绕道)
1 研究背景
tacotron系列以合成高质量语音和闻名,但其自回归模式限制其速度,因此本文提出了非自回归parallel tacotron,当然其合成质量是接近taoctron2。本文贡献点如下:1)非自回归架构;2)使用interative loss;(其实作用甚微) 3)vae-style residual encoder;
2 详细架构
图1展示了其系统架构,主要由input encoder, residual encoder, duration decoder, spectrogram decoder构成。当然本文也需要借助外部的对齐信息来训练duration decoder (下一篇文章Parallel Tacotron2就是解决该问题)。
3 实验结果
table 1和table 2展示interative loss有些用,parallel tacotron可以接近tacotorn2。tabel3和table4使用LCONv比transformer效果好。table5,table6和table7显示使用vae效果。table8显示parallel tacotron是tacotron2差不多13倍速度。
4 总结
本文针对tacotron2自回归造成速度慢问题提出parallel tacotron,其合成质量可以接近tacotron2,速度提高差不多13倍。