摘要
语音的风格迁移,是指将某一说话者的音色、副语言(情绪及语调)等特点赋予到合成的语音中。例如,合成一段语音,具备央视主持人康辉的声音特点。而在计算机视觉领域中,由于深度卷积网络对图像具有良好的特征提取能力,因此图像的风格迁移得到令人印象深刻的结果。本文对语音的风格迁移技术预研,结合图像风格迁移技术及语音合成(TTS)的深度模型Tacotron,提出可行性方案的论述。首先对TTS技术简单概述,根据技术的发展现状和优劣势,利用Tacotron模型提取文本和语音特征,由于语音的频率幅度体现为声谱图的颜色和纹理,因此,结合图像风格迁移的CNN模型对Tacotron模型输出的声谱图进行风格迁移,最后通过Griffin-Lim算法合成音频,实现语音的风格迁移,主要分为以下四个步骤:
- 基于Tacotron模型提取的音频特征(Melspectrogram),把声谱图作为图像风格迁移步骤的“内容声谱图”
- 对风格语音分帧进行STFT变换,同样提取Melspectrogram特征,作为图像风格迁移步骤的“风格声谱图”
- 用CNN图像风格迁移模型对“内容图像”和“风格图像”进行风格渲染,得到风格渲染后的声谱图
- 将风格渲染后的声谱图输出到Griffin-Lim算法模块合成音频。
1. TTS技术概述
TTS技术通常包含文本分析、声学模型、音频合成等模块,主要有三种技术,分别是基于波形拼接