FastSpeech 2整体结构、模块配置及优化

最新推荐文章于 2024-08-16 22:03:44 发布

robinfang2019

最新推荐文章于 2024-08-16 22:03:44 发布

阅读量2.1k

点赞数 22

文章标签：语音识别人工智能

本文链接：https://blog.csdn.net/robinfang2019/article/details/138482309

版权

微软亚洲研究院和微软 Azure 语音团队联合浙大人工智能联合研究院提出了FastSpeech 的改进版 FastSpeech 2，它抛弃了 Teacher-Student 知识蒸馏框架降低训练复杂度，直接用真实的语音数据作为训练目标避免信息损失，同时引入了更精确的时长信息和语音中的其它可变信息（包括音高（Pitch）和音量（Energy）等）来提高合成的语音质量。

1、FastSpeech 2和2s的整体结构

整体架构包括三个主要部分：

编码器(Encoder)：将音素嵌入序列转换为音素隐状态序列。
变差适配器(Variance Adaptor)：为隐状态序列添加时延、音高和能量等变差信息。
Mel谱图解码器(Mel-spectrogram Decoder)：将变差适配后的隐状态序列并行转换为mel谱图序列。

其中，编码器和mel谱图解码器均使用前馈Transformer模块，而变差适配器包含时延预测器、音高预测器和能量预测器。训练时，FastSpeech 2直接以地面真值mel谱图为目标进行训练，同时训练变差预测器以用于推理时的语音合成。

2、FastSpeech 2和2s的设计动机

主要在于改进FastSpeech的几个问题，并更好地解决非自回归语音合成中的one-to-many mapping问题。具体设计动机包括：

简化训练流程：FastSpeech 2直接使用Mel谱图进行训练，避免了使用教师模型蒸馏带来的信息损失，从而简化了训练流程，并提升了语音质量的上限。
提供更多语音变化信息：FastSpeech 2在训练中提取了语音的时延、音高和能量信息，作为条件输入，以缓解one-to-many mapping问题，并提高语音质量。
直接生成语音波形：FastSpeech 2s进一步简化了语音合成流程，可以直接从文本生成语音波形，实现端到端的语音合成，并降低了推理延迟。
改进音高预测：FastSpeech 2和2s使用连续小波变换在频域进行音高预测，以提高音高预测的准确性，并改善语音韵律。