训练音素后验概率谱Tacotron根据不同训练阶段以及不同参数冻结思路,有不同的训练技巧。直接训练方式为忽略语言的差异直接进行训练,如图\ref{fig:Figure-train-1}。
\begin{figure*}[htb]
\centering
\includegraphics[width = 0.38\textwidth]{figures/train-1.JPG}
\caption{音素后验概率谱Tacotron直接训练策略}
\label{fig:Figure-train-1}
\end{figure*}
考虑上在新的语料训练过程中,发音可懂度和音色相似度逐步的提升,口音准确性逐步的降低。因此采用再训练与训练强度控制的方式,具体的流程为:先使用英文语料训练,之后使用中文语料再次进行训练,同时保留训练过程的不同时刻的模型参数结果,最终在所有的过程中的模型参数中选取音色相似度和口音准确性平衡点,称之为训练强度控制,具体如图\ref{fig:Figure-train-2}。
\begin{figure*}[htb]
\centering
\includegraphics[width = 0.60\textwidth]{figures/train-2.JPG}
\caption{音素后验概率谱Tacotron训练强度控制策略}
\label{fig:Figure-train-2}
\end{figure*}
在训练过程保留不同时刻模型参数外,由于模块学习数据中声学信息集中于解码器模块,深入到模型结构细节的训练控制也有利于语音合成效果的优化。对不同模块进行不同训练策略,采用冻结部分参数的训练办法。冻结参数训练方式为:先使用英文语料训练,之后使用中文语料再次进行训练,根据模块设计目的不同,进行不同的冻结手段。其中训练的部分如下图\ref{fig:Figure-train-3},红色Trained部分代表第二次训练时可被训练的部分,剩下部分如编码器被冻结。图\ref{fig:Figure-train-4}表示对解码器部分冻结方式的进一步细化,图中不同数字角标,代表3种不同的冻结策略,分别为重新训练整个注意力机制和解码器模块;只重新训练解码器模块;只重新训练解码器模块中的后处理模块。
\begin{figure*}[htb]
\centering
\includegraphics[width = 1.00\textwidth]{figures/train-3.JPG}
\caption{音素后验概率谱Tacotron训练解码器策略}
\label{fig:Figure-train-3}
\end{figure*}
\begin{figure*}[htb]
\centering
\includegraphics[width = 1.00\textwidth]{figures/train-4.JPG}
\caption{音素后验概率谱Tacotron训练局部解码器策略}
\label{fig:Figure-train-4}
\end{figure*}