语音转换概述

语音转换概述

一、概念
指将一个人(源说话人)的声音个性化特征(如频谱、韵律等)通过“修改变换”,使之听起来像另外一个人(目标说话人)的声音,同时保持说话内容信息不变。广义上把改变语音中说话人个性特征的语音处理技术统称为语音转换。
广义的语音转换可分为非特定人语音转换和特定人语音转换。

二、基本原理
主要个性特征参数:声道谱,共振峰频率,基音频率等。
训练:特征提取,映射,模型训练
转换:待转换源语音特征提取,映射,用转换模型转换,将转换后特征语音合成
在这里插入图片描述
一般,一个完整的语音转换方案包括:

  • 反映声源特性的韵律转换:基音周期的转换、时长的转换和能量的转换。
  • 反映声道激励特性的频谱(或声道谱):共振峰频率、共振峰带宽、频谱倾斜等转换。
    注:因为声道谱包含了人更多的声音个性特征,且转换建模相对复杂,是制约语音转换效果的主要原因。

三、典型方法
语音转换研究的相关工作最早可追溯至 20 世纪六七十年代,至今已经有 50 多年的研究历史,但真正受到学术界和产业界广泛关注则是近十多年的事情。近年来,语音信号处理和机器学习等技术的进步,以及大数据获取能力和大规模计算性能的提高有力推动了语音转换技术的研究及发展,特别是基于人工神经网络的语音转换方法的兴起,出现了序列到序列、波形到波形等语音转换方法。
(目前语音转换研究主要集中在对声道谱的建模和转换规则方面,而对韵律的建模和转换研究尚不够充分。)

1.基于声道谱转换
常用参数:幅度谱、对数谱、倒谱、线性预测系数等基本参数以及动态差分、
本征空间短时谱等变换参数。
目前,对声道谱转换模型的研究通常是在对源和目标说话人语音进行统计分析的基础上,通过参数映射方式实现。声道谱转换研究经历了从离散映射到连续映射、从单帧映射到音段映射、从线性映射到非线性映射、从单一方法到多方法融合的过程,转换性能不断提升。训练条件也从大数据量、平行语音到小数据量、非平行语音过渡。声道谱转换是语音转换中的重点和难点,也是目前语音转换需重点解决的问题。
(1)基于码书映射的转换方法:Abe 等于 1988 年首次提出。2015 年,胡芳等提出基于码书映射的语音转换改进算法,通过基于转换权预测重构码书映射关系的方法提升转换语音质量。

  • 码书映射的方法实现原理简单,量化矢量均来自目标特征空间,语音频谱信息保留较为完整,但存在过平滑问题,且语音转换的精度还有待进一步提升。
    (2)基于高斯混合模型
    由于 GMM 本身存在非一一映射情况,导致的过平滑问题一直没有得到根本解决,所以也限制该方法的进一步普及和应用。
    (3)基于隐马尔可夫
    由于 HMM 的隐含状态数目受限,造成了语音信号的动态变化范围受限,进而制约了转换处理精度,故该方法在实际转换应用中也有一定局限。
    (4)基于频率弯折
    是指通过沿频率轴拉伸或压缩频谱,来调整共振峰的位置和带宽,并通过幅度缩放来调整每个频率中的能量大小,从而实现源到目标说话人的频谱映射。
  • 采用基于频率弯折来实现语音转换的方法,能够最大程度地保持语音自然度,且转换语音质量较高,但是其在相似度方面略显不足,还需结合其他方法以获得进一步提升。
    (5)基于神经网络
    序列到序列(seq2seq)的 GAN 模型初步研究了语音转换以及语音质量增强中的过平滑问题;BLSTM转换的语音质量较好2015年;Takuhiro 等在循环GAN 的基础上进行改进2019年。
  • 所依赖参数过多,在非合作模式下当训练数据不充分时,就会发生过拟合现象,导致性能急速下降。对数据量依赖。
    (6)基于波形生成
    针对转换合成语音产生过平滑的问题,2016 年 Google 公司的 Deepmind 团队提出采用 WaveNet 网络直接生成音频波形样本点的方法来解决。该方法最初被用于文本转换为语音的系统 TTS,2018 年,Niwa 等首次提出将该网络用于语音转换。中科大在 VCC⁃2018 大赛上提出了结合 Bi⁃LSTM 先转换特征再进行特征条件概率建模的方法,有效提升了语音质量。
    (7)其他方法
    基于时频模板,主成分回归,基于卷积非负矩阵分解,隐变量模型,基于语音个人特征信息分离。可见字典映射转换、特征融合转换以及支持向量回归等方法都还有一定的应用空间。

总结:多网络模型融合的方法日益成为主流的转换方法,因此如何基于小样本数据,高效率实时实现声道谱转换,在既保证转换语音的高自然度和高相似度的同时,又保证转换算法的鲁棒性是一个需要重点关注的问题。

2.基于韵律转换
除了声道谱转换外,激励源转换对整个语音转换系统性能也举足轻重,主要包括韵律和非周期分量的转换。非周期分量作为激励的一部分,不少转换模型直接将其复制不做任何变换。
而韵律在反映目标说话人特征、情感状态、口音等特征上具有重要作用。韵律建模通常是通过基频包络来实现,当前的研究主要体现在情感转换方面。由于韵律信息的复杂性及不稳定性,所以目前韵律转换主要集中在对基频包络 F0的转换。

  • 0
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值