语音转换方法概述

最新推荐文章于 2025-04-18 14:59:26 发布

BarbaraChow

最新推荐文章于 2025-04-18 14:59:26 发布

阅读量4.3k

点赞数

分类专栏：语音转换文章标签：机器学习神经网络算法

原文链接：https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CJFD&dbname=CJFDLAST2019&filename=SJCJ201905001&v=1GAds6iAZ8B8v0Kn9f40Hsn%25mmd2BIP8nBTx7Qh9RyiwzFKSaB3TVhP%25mmd2FlB7GoMDzHO2wq

版权

语音转换专栏收录该内容

11 篇文章

订阅专栏

语音转换方法概述

语音转换是语音信号处理一个重要的分支领域，其涉及到了多个学科，包括生理、声学、信号处理等
多个学科。

语音转换：通过语音处理手段改变一个人的语音个性特征，使之具有另一个人的语音特征，但同时保持原有的语义信息不变。

个性化特征参数可分为以下三类：

音段特征：描述语音的音色特征。主要包括共振峰频率、共振峰带宽、频谱倾斜、基音频率等。音段特征主要取决于发音器官的生理物理特性，具有很好的稳定性。
超音段特征：描述语音的韵律特征。主要包括音素的时长、基音轨迹、能量等。超音段特征主要受社会和心理状况的影响，具有不稳定性。
语言特征：主要包括方言口音、习惯用语等。语言特征与个人成长环境、社会背景等有很大的关系，具有随机性，不易对其进行建模。

声学参数对语音个性特征的贡献大小，目前还没统一说法。有文献研究认为基音频率的贡献最大，其次是共振峰频率；Furui则认为由倒谱系数得到的平均谱包络贡献最大，其次为基音频率；itoh等认为频谱包络贡献最大，基音频率位列第二。虽然各学者的意见不一，但总的来看，基音频率的转换对合成语音有极大的影响。

1. 语音转换原理

在这里插入图片描述
第一步：建立源说话人和目标说话人的语音库；
第二步：分别对语音库中源说话人和目标说话人语音进行预处理；
第三步：分别提取语音库中源说话人和目标说话人的语音个性特征参数；
第四步：通过对特征参数的计算最终建立转换规则；（训练阶段）
第五步：根据第四步得到的转换规则应用在转换阶段，实现语音的转换；（转换阶段）
第六步：由于语音经过分析、转换、合成后，语音质量会有不同程度的下降，因此要对转换后语音进行一些后期处理。(如去噪)

2. 研究现状

国外
1. Abe最早提出采用矢量量化码本映射方法来进行频谱包络的映射（但是该方法将连续的语音信号进行离散分割，造成了不连续性，影响了语音音质）。在此基础上，Arslan提出加权矢量量化法。Mizuno通过提取共振峰并对共振峰进行线性转换以达到谱包络转换的目的。
2. Stylianou采用高斯混合模型法(GMM)对谱包络参数进行转换；wahashil采用说话人插值法获得了良好的效果。相比于矢量量化法，GMM法避免了语音信号分割的不连续，转换结果较为理想。（但是传统的GMM法采用多个高斯模型进行参数估计，使得产生共振峰过平滑的现象）。在此基础上，Toda提出了动态频率归整法抑制过平滑。
国内
起步较晚。初敏等人采用TD-POSLA的方法进行男女语音转换的研究。左国玉提出了基于遗传径向基神经网络的转换方法。黄德智对语音类型分解分别建模的方法来提高语音质量。康永国提出了基于混合映射模型的语音转换算法。

（上面仅针对平行语料库，即源说话人和目标说话人的训练语音内容要对应一致）

3. 几种典型方法

1.矢量量化法(Vector Quantization，VQ)
Abe等人最早提出了矢量量化算法，将语音特征信号以帧作为划分，然后求出对应帧之间的关系，这个关系可以由一个矩阵进行表示。其基本原理如图所示：
在这里插入图片描述
在训练阶段首先将语音分成若干个独立的帧（基于矢量量化对语音分帧量化），提取每一帧的参数矢量；然后基于DTW将对应的语音帧对齐。采用柱状统计图表示两端语音之间映射关系，建立映射码数H，H为M×M的矩阵。柱状图的统计值即为转换过程中目标语音矢量对应的加权系数，也就是矢量量化法中的映射码书。

2.说话人插值法
说话人插值法最早由1wahashi和Sagisaka等人在1994年提出，该算法的基本思想是根据事先存储的多个说话人的频谱包络进行插值从而最终得到目标的频谱包络。

3.线性多变量回归法
90年代初Valbret提出采用线性多变量回归法(Linear Multivariate Regression，LMR)来实现转换目的，该算法将目标空间按照一定条件进行分类，分成若干个相互独立的子空间。
算法流程：首先对源语音和目标语音的特征参数进行归一化处理，对两组参数用DTW算法将频谱包络特征参数对齐；接着采用非监督的分类技术将源和目标说话人的声学参数空间分成若干个子空间，任意子空间之间都是非叠加的，最后利用LMR算法对每个子空间的源特征参数和目标特征参数分别建立对应的线性关系，最后将这些线性关系加以组合就构成了整段语音信号的转换规则。

4.神经网络法
神经网络(Artificial Neural Network，ANN)算法最大的特点是采用非线性映射，其具有自适应与自组织能力，在训练或转换过程中可以动态改变权值，以满足相对应的要求。神经网络法在不同性别间的语音转换有良好的效果。
1995年，Narendranath最早采用神经网络法实现语音转换。该算法采用的特征参数是共振峰参数，提取了源语音和目标语音的前三个共振峰参数。采用BP算法对参数进行训练得到源语音和目标语音的转换关系，这些关系可能是线性的，也可能是非线性的。
但共振峰参数是语音短时频谱直接导出的参数，易受到外界影响，难以达到理想的效果。为此左国玉提出了改进算法，该算法在神经网络的基础上，采用线谱对参数(Linear Spectrum Pair，LSP)作为神经网络的输入，运用了遗传算法进行参数训练。相比于Narendranath算法，该算法大大提高了神经网络运行稳定性，同时亦提高了转换效果。对于非线性映射函数，人们也可以采用多个线性映射函数不断逼近模拟，线性映射函数个数越大，两者效果越接近。

5.高斯混合模型法
高斯混合模型(Gaussian Mixture Model，GMM)是语音转换研究领域中使用最为常见的模型之一。VQ法是基于离散的矢量集的，其人为将连续的语音信号分割，使得提取的语音特征参数缺乏连续性，听起来的语音存在明显的不连续现象。Stylianou等人首先提出的高斯混合模型法，对语音信号加权系数求平均，从而有效解决了这一问题。但传统的GMM法采用多个高斯模型进行参数估计，使得产生共振峰过平滑的现象。Toda提出了动态频率归整法抑制过平滑。

6.隐马尔可夫法
隐马尔可夫模型(HMM)是一种基于统计信号模型，也是目前广泛应用的模型之一。高斯混合模型也是隐马尔科夫模型的特殊情况。

4. 语音转换评价指标

评价的指标主要有：转换后语音与目标语音的相似程度；转换后语音的清晰度、自然度、可懂度等。

客观评价（主要采用数学方法对声学参数进行计算，计算结果客观公正）

（1）信噪比（Signal Noise Ratio, SNR）
在这里插入图片描述
值越大，表明转换后与语音与目标语音越接近。

（2）频谱失真度（Spectral Distortion, SD）
转换后语音与目标语音的频谱的差异。值越大，差异越大。值越小，差异越小，说明转换越好。
绝对谱失真测度：
在这里插入图片描述
相对谱失真测度：

（3）说话人识别测试
比较转换后的语音是更接近源语音还是目标语音。值越大表示转换后的语音越接近目标语音。

主观评价（主要利用人耳的听觉特性，直接反映了人耳听到的实际效果，不同人的评价标准很大程度上受到测试者的主观影响）

（1）ABX测试（主要测试语音的倾向性，即语音的真实感知）
A：代表源说话人的语音
B：代表目标说话人的语音
X：代表源说话人经过转换后的语音，
测试的方法就是分别聆听三段语音，判断X更接近A还是更接近B。如果X更接近于B，就意味着转换系统的性能比较良好，反之则认为转换系统性能不佳。对多个人的ABX测试结果进行平均，就得到了整个语音的ABX评分。
在这里插入图片描述
M是参与测试的人数，Pm代表的是测试结果，如果测试语音倾向于目标语音则Pm值取1，倾向于源语音则Pm值取0。
ABX主要缺点在于，在测试过程中绝大多数人都会认为语音的个性特征倾向于目标说话人，测试结果接近100％，但这并不意味着语音转换系统性能十分优越。

（2）MOS测试（Mean Opinion Score）（测试语音的可懂度、自然度）
中文称作平均意见得分测试。MOS测试将测试标准分为5个等级。MOS得分越高表明转换后的语音的可懂度、自然度越好。
在这里插入图片描述
M是测试总人数，N是测试语句的个数，score是第m个人对第n条测试语音的评分。