语音合成论文优选：AutoML优化TTSLightSpeech: Lightweight and Fast Text to Speech with Neural Architecture Search

最新推荐文章于 2024-07-07 08:32:14 发布

我叫永强

最新推荐文章于 2024-07-07 08:32:14 发布

阅读量370

点赞数

分类专栏：语音合成论文文章标签：语音识别人工智能深度学习机器学习自然语言处理

本文链接：https://blog.csdn.net/liyongqiang2420/article/details/113924130

版权

这篇博客介绍了中国科学技术大学和微软合作的研究，利用AutoML中的Neural Architecture Search (NAS)优化轻量级且快速的Text-to-Speech模型LightSpeech。研究发现，通过NAS能在保持高音频质量的同时，将模型压缩15倍，推理速度提升6.5倍，甚至MOS评分有所提高。

摘要由CSDN通过智能技术生成

声明：语音合成论文优选系列主要分享论文，分享论文不做直接翻译，所写的内容主要是我对论文内容的概括和个人看法。如有转载，请标注来源。

欢迎关注微信公众号：低调奋进

LightSpeech: Lightweight and Fast Text to Speech with Neural Architecture Search

本文章是中国科学技术大学和微软在2021.02.08更新的文章，本文章是使用AutoML中的NAS来搜索最佳的网络结构，这是我看到的第一篇使用NAS来优化语音合成模型，具体的文章链接https://arxiv.org/pdf/2102.04040.pdf

1 研究背景

虽然现在的语音合成的合成音频质量很高，但性能的问题是限制模型落地的关键，尤其是自回归模型。为了提高速度，很多研究提出非自回归模型，例如fastspeech2系统。一个较好的模型需要研究人员通过经验来设置超参，并通过大量实验来选择较好的版本。模型的超参包括控制参数更新的超参和控制网络架构的超参，而控制网络的超参往往凭借研究人员的经验来设置，根本无法获得最优的模型。AutoML的neural architecture search根据设定的搜索空间来寻找最优的网络结构，本文就是我看到第一篇使用该方法来寻找较优的模型。本文主要在fastspeech上进行优化，实验结果显示模型被压缩15倍，推理速度提高6.5倍，而且MOS反而提高一些。（当然NAS的缺点大家都知道，需要“钞能力”，google以前的方法动不动几千块GPU，动不动一个月的训练时间࿰