作者:禅与计算机程序设计艺术
1.前言
随着AI领域不断发展,语音识别、机器翻译等技术在各个领域都有很大的应用价值。而语音合成(Text-To-Speech, TTS)则是语音技术的一个重要组成部分。TTS的主要任务就是将文本转化为语音信号,以便用户能够通过听觉接收到计算机生成的文字信息或者命令。除了传统的男声女声外,基于深度学习的TTS还可以实现声音合成的效果。目前市面上主流的TTS方法主要分为以下两类:
-
基于规则和统计模型的方法:这种方法是指将声学特征和语言学特征综合考虑,依靠统计学习的方法进行预训练,然后对输入的文本和输出的语音进行建模并估计模型参数,最后用模型进行生成。例如,CMU Pronouncing Dictionary和Griffin-Lim算法。
-
深度神经网络(DNN)的方法:这种方法则是利用神经网络的非线性特性对声学和语言学特征进行编码,并借助反向传播算法进行参数学习。例如,Tacotron、WaveNet、DeepVoice3、FastSpeech等。
本文以较为经典的Tacotron方法为例,剖析其中的语音合成和人工智能和自然语言处理相关技术。