语音的风格迁移

最新推荐文章于 2023-10-23 18:20:39 发布

STU_11wxzou

最新推荐文章于 2023-10-23 18:20:39 发布

阅读量4k

点赞数 4

分类专栏：算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014479551/article/details/105709627

版权

本文探讨了语音风格迁移技术，结合TTS模型Tacotron与图像风格迁移的CNN模型，通过提取和渲染声谱图，实现语音的风格转换。首先概述了TTS技术的三种方法，然后详细阐述了基于Tacotron的声谱图内容提取和CNN的风格迁移过程，最终通过Griffin-Lim算法合成音频。

摘要由CSDN通过智能技术生成

摘要

语音的风格迁移，是指将某一说话者的音色、副语言（情绪及语调）等特点赋予到合成的语音中。例如，合成一段语音，具备央视主持人康辉的声音特点。而在计算机视觉领域中，由于深度卷积网络对图像具有良好的特征提取能力，因此图像的风格迁移得到令人印象深刻的结果。本文对语音的风格迁移技术预研，结合图像风格迁移技术及语音合成（TTS）的深度模型Tacotron，提出可行性方案的论述。首先对TTS技术简单概述，根据技术的发展现状和优劣势，利用Tacotron模型提取文本和语音特征，由于语音的频率幅度体现为声谱图的颜色和纹理，因此，结合图像风格迁移的CNN模型对Tacotron模型输出的声谱图进行风格迁移，最后通过Griffin-Lim算法合成音频，实现语音的风格迁移，主要分为以下四个步骤：

基于Tacotron模型提取的音频特征（Melspectrogram），把声谱图作为图像风格迁移步骤的“内容声谱图”
对风格语音分帧进行STFT变换，同样提取Melspectrogram特征，作为图像风格迁移步骤的“风格声谱图”
用CNN图像风格迁移模型对“内容图像”和“风格图像”进行风格渲染，得到风格渲染后的声谱图
将风格渲染后的声谱图输出到Griffin-Lim算法模块合成音频。

1. TTS技术概述

TTS技术通常包含文本分析、声学模型、音频合成等模块，主要有三种技术，分别是基于波形拼接

最低0.47元/天解锁文章

关注

4
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
语音的风格迁移

摘要语音的风格迁移，是指将某一说话者的音色、副语言（情绪及语调）等特点赋予到合成的语音中。例如，合成一段语音，具备央视主持人康辉的声音特点。而在计算机视觉领域中，由于深度卷积网络对图像具有良好的特征提取能力，因此图像的风格迁移得到令人印象深刻的结果。本文对语音的...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。