语音的风格迁移

                                                               摘要

语音的风格迁移,是指将某一说话者的音色、副语言(情绪及语调)等特点赋予到合成的语音中。例如,合成一段语音,具备央视主持人康辉的声音特点。而在计算机视觉领域中,由于深度卷积网络对图像具有良好的特征提取能力,因此图像的风格迁移得到令人印象深刻的结果。本文对语音的风格迁移技术预研,结合图像风格迁移技术及语音合成(TTS)的深度模型Tacotron,提出可行性方案的论述。首先对TTS技术简单概述,根据技术的发展现状和优劣势,利用Tacotron模型提取文本和语音特征,由于语音的频率幅度体现为声谱图的颜色和纹理,因此,结合图像风格迁移的CNN模型对Tacotron模型输出的声谱图进行风格迁移,最后通过Griffin-Lim算法合成音频,实现语音的风格迁移,主要分为以下四个步骤:

  1. 基于Tacotron模型提取的音频特征(Melspectrogram),把声谱图作为图像风格迁移步骤的“内容声谱图”
  2. 对风格语音分帧进行STFT变换,同样提取Melspectrogram特征,作为图像风格迁移步骤的“风格声谱图”
  3. 用CNN图像风格迁移模型对“内容图像”和“风格图像”进行风格渲染,得到风格渲染后的声谱图
  4. 将风格渲染后的声谱图输出到Griffin-Lim算法模块合成音频。

1. TTS技术概述

TTS技术通常包含文本分析、声学模型、音频合成等模块,主要有三种技术,分别是基于波形拼接

  • 4
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值