作者:禅与计算机程序设计艺术
1.简介
Tacotron2 (Text-To-Speech),是 Google 的开源语音合成神经网络模型,由两部分组成:编码器(Encoder)和转换器(Attention decoder)。它的主要特点就是生成语音波形的同时输出文字描述,这种模型比较适合生成长文本的音频文件,比如电子书、新闻等。
本文将使用 Python 的 TensorFlow 和 PyTorch 框架对 Tacotron2 模型进行实践并展示如何使用 Python 实现基于 Tacotron2 的语音合成。为了便于阅读,文章将详细阐述相关知识背景及其发展历程,并给出了许多参考文献。
2.背景介绍
什么是语音合成?
语音合成(Text-to-speech,TTS)是通过计算机将文字转化为人类可以识别和理解的声音信号的一项技术。它是用计算机生成的高质量人机对话语音的关键技术之一。
目前市面上常用的语音合成工具有有
- 专门用于制作和编辑语音的软件,如 Windows 的 Windows SAPI、Mac OS X 的 VoiceOver 或 Linux 的 Speech Dispatcher;
- 在线服务,如 Google 的 Cloud Text-to-Speec