语音合成（TTS)论文优选：feathertts:robust and efficent attention based neural tts

最新推荐文章于 2021-01-29 09:24:26 发布

我叫永强

最新推荐文章于 2021-01-29 09:24:26 发布

阅读量453

点赞数

分类专栏：语音合成论文文章标签：语音识别人工智能深度学习机器学习 tts

本文链接：https://blog.csdn.net/liyongqiang2420/article/details/110237740

版权

语音合成论文专栏收录该内容

104 篇文章

订阅专栏

声明：语音合成（TTS)论文优选系列主要分享论文，分享论文不做直接翻译，所写的内容主要是我对论文内容的概括和个人看法。如有转载，请标注来源。欢迎关注微信公众号：低调奋进

FEATHERTTS: ROBUST AND EFFICIENT ATTENTION BASED NEURAL TTS

本文章是腾讯继featherwave之后又一篇feather系列文章，featherwave是基于multiband的声码器，而本文章是声学模型，更新与2020.11.02。具体链接https://arxiv.org/pdf/2011.00935.pdf

1 背景

虽然现在的end-to-end的自回归TTS合成音频质量很高，但依然存在诸多问题。比如attention（目前tacotron2使用attention有content-based attention, hybrid location-sensitive attention, GMM ,GMMv2b等等）对齐（音素级对齐帧级）不够，造成合成任务提前终结或者出现漏字拖音的情况。本文提出了基于新的GMM attention的系统FeatherTTS。其主要贡献点 1）介绍具有完全单调性的Gaussion attention使其对齐更好更快。2）删除tacotron2的stop token预测，引入attention stop loss(AVL)。3) 对decoder部分的LSTM使用参数稀疏化，使推理速度更快，实时率更高。

2 详细系统结构

该系统是基于tacotron2架构，详细结构如下图所示，一方面删除了stop token的预测，添加了attention stop loss模块进行合成时常控制。另一方面删除掉原来基于卷积的postnet换成基于LSTM的time delayed,本文章实验的delayed为5帧（这个模块在将来可以尝试使用一下）。其中为了推理加速，该文章对decoder的lstm使用sparse操作，稀疏90%参数，不过对于稀疏化的训练，以前的同事做了好几月，合成效果一般。主要刚开始很难调参数。最后该文章主要对a't'tention部分进行设计。

语音合成（TTS)论文优选：FEATHERTTS