【论文学习笔记】《Phonetic Posteriorgrams For Many-To-One Voice Conversion Without Parallel Data Training》

《Phonetic Posteriorgrams For Many-To-One Voice Conversion Without Parallel Data Training》论文学习

  摘要

       提出了一种基于非并行训练数据的语音转换方法。
       其理念是通过语音后验图( PPGs )在说话人之间架起桥梁, PPGs 是由一个独立于说话者的自动语音识别( SI-ASR )系统获得的。
       假定这些 PPGs 可以代表说话人规范化空间中的语音发音,并独立对应说话人所说的内容。
       
       该方法首先获取目标语音的 PPGs 。然后,采用基于深度双向长短时记忆的递归神经网络( DBLSTM )结构对 PPGs 与目标语音声学特征之间的关系进行建模。
       为了转换任意源语音,我们从相同的 SI-ASR 中获取其 PPGs ,并将其输入到训练好的 DBLSTM 中生成转换语音。
       
       我们的方法有两个主要优点:
              1)不需要平行训练数据
              2)一个训练过的模型可以应用于任何其他源说话人的固定目标说话人(即多对一转换)。
       
       实验表明,我们的方法在语音质量和说话人相似度方面都优于目前的系统。
       
       
       索引术语 —— 语音转换,语音后验图,非平行,多对一,自动语音识别,深度双向长短时记忆
       
        基于 PyTorch 实现的 PPG_Tacotron 模型现已开源,该项目采用本片文章介绍的 PPG 模型架构,并结合 Tacotron 模型中的 CBHG 模块进行优化,将模型训练速度提升至原来的 9 倍!欢迎各位交流学习

  1 介绍

       语音转换( VC )的目的是修改一个说话人的讲话,使其听起来像是由另一个特定的说话人说的。
        VC 可以广泛应用于许多领域,包括计算机辅助发音修剪系统的定制反馈,为言语障碍对象开发个性化的说话辅助,用各种人的声音进行电影配音等。
       
       典型的 VC 训练工作如下:首先对相同口语内容的语音片段(如帧)进行对齐。
       在此基础上,建立了源声特征到目标声特征的映射关系。
       以前很多 VC 的工作都依赖于并行的训练数据,在这些数据中,源说话人和目标说话人发出相同的句子录音是成对的。
        Stylianou 等人(《Continuous probabilistic transform for voice conversion》)提出了一种基于高斯混合模型( GMMS )的连续概率变换方法。
        Toda 等(《Voice conversion based on maximum-likelihood estimation of spectral parameter trajectory》)利用全局方差改善了基于 GMM 的方法的性能,缓解了过平滑效应。
        Wu 等人(《Exemplar-based voice conversion using non-negative spectrogram deconvolution》)提出了一种基于非负矩阵分解的方法,利用语音范例直接合成转换后的语音。
        Nakashika 等人(《Voice conversion in high-order eigen space using Deep Belief Nets》)使用深度神经网络( DNN )在高阶空间映射源和目标。
        Sun 等人(《Voice conversion using deep bidirectional Long Short-Term Memory based Recurrent Neural Networks》)[5]提出了一种基于深度双向长短期记忆的循环神经网络( DBLSTM )方法,利用光谱特征及其上下文信息对源和目标语音之间的关系进行建模。
       
       所有上述方法都提供了相当好的结果。
       然而,在实践中,并行数据并不容易获得。因此,一些研究者提出了非并行数据的 VC 方法,这是一个更具挑战性的问题。
       这些方法大多集中在寻找不那么简单的适当的帧对齐上。
        Error 等人(《INCA algorithm for training voice conversion systems from nonparallel corpora》)提出了一种迭代对齐方法来对非平行语音中的语音等价声向量。
        Tao 等人(《Supervisory data alignment for text-independent voice conversion》)提出了一种监督数据对齐方法,在对齐过程中使用语音信息作为约束。
        Silen 等人(《Voice conversion for non-parallel datasets using dynamic kernel partial least squares regression》)将基于动态核偏最小二乘回归的方法与迭代对齐算法相结合,扩展了非并行数据的方法。
        Benisty 等人(《Non-parallel voice conversion using joint optimization of alignment by temporal context and spectral distortion》)利用时间上下文信息来提高非并行数据的迭代对齐精度。
       
       不幸的是,实验结果(《INCA algorithm for training voice conversion systems from nonparallel corpora》,《Supervisory data alignment for text-independent voice conversion》,《Voice conversion for non-parallel datasets using dynamic kernel partial least squares regression》,《Non-parallel voice conversion using joint optimization of alignment by temporal context and spectral distortion》)表明,非并行数据的VC的性能不如并行数据的VC。
       这种结果是合理的,因为很难使非平行对准与平行对准一样精确。
        Aryal 等人(《Articulatory-based conversion of foreign accents with Deep Neural Networks》)提出了一种非常不同的方法,利用电磁关节造影( EMA )估计的关节行为。
       本文认为不同的说话人在说相同的口语内容时具有相同的发音行为(如果他们的发音区域被标准化),将标准化的 EMA 特征作为连接源说话人和目标说话人的桥梁。
       在对目标说话人的 EMA 特征与声学特征之间的映射进行建模后,利用源说话人的 EMA 特征驱动训练后的模型即可实现 VC
       
       我们的方法是受到(《Articulatory-based conversion of foreign accents with Deep Neural Networks》)的启发。
       然而,我们使用容易获得的语音后验图( PPGs )来代替难以获得的 EMA 特征,在说话人之间建立桥梁。
        PPG 是一个时间-类别矩阵,代表了一个话语的每个特定时间框架下每个语音类别的后验概率(《Query-by-example spoken term detection using phonetic posteriorgram templates》,《Event selection from phone posteriorgrams using matched filters》)。
       我们提出的方法通过使用一个独立于说话人的自动语音识别( SI-ASR )系统来均衡说话人的差异来生成 PPGs
       然后,我们使用 DBLSTM 结构对获得的 PPGs 和目标说话人相应的声学特征之间的映射进行建模,用于语音参数的生成。
       最后,我们用源说话人的 PPGs (从相同的 SI-ASR 获得)驱动训练好的 DBLSTM 模型来执行 VC
       请注意,我们没有使用任何潜在的语言信息背后的 PPGsSI-ASRVC
       
       我们提出的方法有以下优点:
              1)不需要平行训练数据;
              2)不需要对准过程(如 DTW ),避免了可能的对准误差的影响;
              3)训练过的模型可以应用于任何其他源说话人,只要目标说话人是固定的(如多对一转换)。但是对于并行训练数据的最新方法,训练过的模型只适用于特定的源说话人(如在一对一转换中)。
       
       本文的其余部分组织如下:
              第 2 节介绍了一个最先进的 VC 系统,它依赖于并行训练数据作为我们的基线;
              第 3 节描述了我们提出的使用 PPGsVC 方法;
              第 4 节介绍了实验,并将我们提出的方法与客观和主观度量的基线进行了比较;
              第 5 部分是本文的结束语。
       

  2 基线:基于 DBLSTM 的方法,并行训练数据

       基线方法是基于一个 DBLSTM 框架,该框架是用并行数据(《Voice conversion using deep bidirectional Long Short-Term Memory based Recurrent Neural Networks》)训练的。
       

    2.1 DBLSTM 的基本框架

图1

1DBLSTM 的架构

       

       如图 1 所示, DBLSTM 是一个序列到序列映射模型。
       中间部分、左边部分和右边部分(分别用 tt-1t+1 标记)分别表示当前帧、上一帧和下一帧。
       图 1 中的每个方块代表一个存储块,它包含自连接的存储单元和三个门单元(即输入、输出和遗忘门),分别提供写、读和复位操作。
       此外,每一层的双向连接可以充分利用前向和后向的上下文信息。
       
        DBLSTM 网络体系结构包括内存块和循环连接,可以在更长的时间内存储信息,并学习上下文信息的最佳数量(《Voice conversion using deep bidirectional Long Short-Term Memory based Recurrent Neural Networks》,《Feature enhancement by bidirectional LSTM networks for conversational speech recognition in highly non-stationary noise》)。
       

    2.2 训练阶段和转换阶段

图2

2 所示:基于 DBLSTMVC 并行训练数据的方法原理图

       

       基线方法分为训练阶段和转换阶段,如图 2 所示。
       在训练阶段,采用直线分析(《Restructuring speech representations using a pitch-adaptive time frequency smoothing and an instantaneous-frequency-based F0 extraction: Possible role of a repetitive structure in sounds》)提取光谱包络线。
       首先提取梅尔倒谱系数( MCEPs )(《Cepstral analysis synthesis on the mel frequency scale》)来表示谱包络,然后利用动态时间规整( DTW )对源语音和目标语音相同句子的 MCEPs 特征进行对齐。
       然后,将源语音和目标语音的 MCEPs 特征配对作为训练数据。
       利用时间反向传播( BPTT )对 DBLSTM 模型进行训练。
       
       在转换阶段,首先提取一个源语音的基频( F0 )、 MCEPs 和非周期分量( AP )。
       然后,转换后的语音参数生成如下:经过训练的 DBLSTM 模型映射 MCEPsLog F0 通过均衡源和目标语音的均值和标准差进行转换;直接复制 AP ;最后,采用 STRAIGHT 声码器合成语音波形。
       

    2.3 局限性

       尽管具有良好的性能,但基于 DBLSTM 的方法有以下局限性:
              1)它依赖于并行训练数据,收集的成本非常昂贵;
              2) DTW 误差对 VC 输出质量的影响是不可避免的。
       

  3 建议的方法:语音后验图( PPGS )的 VC

       为了解决基线方法的局限性,我们提出了一种基于 PPGs 的方法,相信从 SI-ASR 系统获得的 PPGs 可以在说话人之间建立桥梁。
       

    3.1 概述

图3

3VCPPGs 的示意图
SI 代表独立的说话人
目标语音和源语音没有任何重叠部分,阴影部分如图 5 所示

       

       如图 3 所示,本文提出的方法分为三个阶段:训练阶段 1 、训练阶段 2 和转换阶段。
        SI-ASR 模型的作用是获得输入语音的 PPGs 表示。
       训练阶段 2 对目标说话者的 PPGsMCEPs 特征之间的关系进行建模,以生成语音参数。
       转换阶段使用 VC 的源语音(从同一 SI-ASR 获得)的 PPGs 驱动训练好的 DBLSTM 模型。
        PPGs 的计算和三个阶段将在以下小节中介绍。
       

    3.2 语音后验图( PPGs )

        PPG 是一个时间-类别矩阵,代表了一个话语的每个特定时间框架下每个语音类别的后验概率(《Query-by-example spoken term detection using phonetic posteriorgram templates》,《Event selection from phone posteriorgrams using matched filters》)。
       语音类可以指单词、音素或元音。
       本文将元音作为语音类别。
图4

4PPG表示口语短语的特殊情况
横轴表示以秒为单位的时间,纵轴包含语音类的索引
元音的数量是 131 ,深色表示较高的后验概率

       

       图 4 显示了用于口语短语特殊情况的 PPG 表示的示例。
       我们认为,从 SI-ASR 获得的 PPGs 可以代表说话人规范化空间中的语音发音,并独立地对应于说话人的语音内容。
       因此,我们把这些 PPGs 看作是源说话人和目标说话人之间的桥梁。
       

    3.3 训练阶段 1 和 2

       在训练阶段 1 ,使用多说话者 ASR 语料库训练 SI-ASR 系统生成 PPGs 。下面以一段语句为例解释这些方程。
       输入为第 t 帧的 MFCC 特征向量,记为 Xt
       输出为后验概率 Pt = ( p(s|Xt) | s = 1, 2, …, C) 的向量,其中 p(s|Xt) 为各语音类 s 的后验概率。
       
图5

5DBLSTM 模型训练示意图

       

       如图 5 所示,训练阶段 2DBLSTM 模型(语音参数生成模型)进行训练,得到 PPGMCEPs 序列之间的映射关系。
       对于目标说话人的给定话语, t 表示该序列的框架索引。
       输入是 PPG (P1, …, Pt, …, PN) ,由训练好的 SI-ASR 模型计算。
       输出层的理想值为从目标语音中提取的 MCEPs 序列 (YT1, …, YTt, …, YTN)
       输出层的实际值为 (YR1, …, YRt, …, YRN)
       第 2 阶段训练的成本函数为:
公式1
       通过第 2 节中提到的 BPTT 技术,该模型被训练成最小化代价函数。
       请注意, DBLSTM 模型仅使用目标说话人的 MCEPs 特征和说话人独立的 PPGs 进行训练,而不使用任何其他语言信息。
       

    3.4 转换阶段

       在转换阶段, log F0AP 的转换与基线方法相同。
       首先,提取源语音的 MFCC 特征,得到转换后的 MCEPs
       其次,以 MFCC 特征为输入,从训练好的 SI-ASR 模型中获得 PPGs
       第三,经过训练的 DBLSTM 模型将 PPGs 转换为 MCEPs
       最后,声码器利用转换后的 MCEPs 与转换后的 log F0AP 合成输出语音。
       

  4 实验

    4.1 实验设置

       我们用于 VC 的数据是 CMU 北极语料库(《The CMU Arctic speech databases》)。
       进行了性别内转换实验(男性到男性: BDLRMS )和跨性别转换实验(男性到女性: BDLSLT )。
       基线方法使用源说话人和目标说话人的并行语音,而我们提出的方法只使用目标说话人的语音进行模型训练。
       
       信号采样为 16kHZ ,单信道,加窗 25ms ,每 5ms 移位一次。
        STRAIGHT 分析(《Restructuring speech representations using a pitch-adaptive time frequency smoothing and an instantaneous-frequency-based F0 extraction: Possible role of a repetitive structure in sounds》)提取了光谱包络、 F0 ( 1 维)和 AP ( 513 维)等声学特征。
       提取了 39MCEPslog 能量来表示谱包络。
       
       实现了两个系统进行比较:
        基线系统 :基于 DBLSTM 的并行训练数据方法。两个任务:男性到男性( M2M )转换和男性到女性( M2F )转换。
        提出的 PPGs 系统 :我们提出的方法使用 PPGs 来增强 DBLSTM 。两个任务:男性到男性( M2M )转换和男性到女性( M2F )转换。
       
       在基于 PPGs 的方法中,利用 Kaldi 语音识别工具包(《The Kaldi speech recognition Toolkit》)和 TIMIT 语料库(《TIMIT acoustic-phonetic continuous speech corpus》)实现了 SI-ASR 系统。
       该系统有一个 DNN 架构,包含 4 个隐藏层,每个隐藏层包含 1024 个单元。
       元音被视为 PPGs 的语音类。
       在训练阶段 1 通过聚类得到元音的个数为 131 个。
        SI-ASR 模型训练的硬件配置为 Intel Xeon E5-264082.6GHZ 。训练时间约为 11 小时。
       然后,采用 DBLSTM 模型映射 PPGs 序列和 MCEPs 序列之间的关系,进行语音参数生成。
       实现的是基于机器学习的库,目前的(《Introducing CURRENNT: the Munich open-source CUDA RecurREnt Neural Network Toolkit》)。
       每一层的单元数分别为 [131 64 64 64 64 39] ,每一隐含层包含一个 LSTM 正向层和一个 LSTM 反向层。
       使用 BPTT 对该模型进行训练,学习率为 1.0×10^-6 ,动量为 0.9
        DBLSTM 模型的训练过程采用 NVIDIA Tesla K40 GPU 加速, 100 句训练集的训练时间约为 4 小时。
       
       基于 DBLSTM 的基线方法具有相同的模型配置,只是它的输入只有 39 个维度(而不是 131 个维度)。 100 句的训练集需要 3 小时左右。
       

    4.2 客观评价

       梅尔倒谱失真( MCD )用来测量转换后的语音与目标语音的距离。 MCD 为转换后的语音与目标语音的 MCEPs 之间的欧氏距离,记为:
公式2
       其中 NMCEPs 的维数(不包括能量特征)。 cd 和转换后的 cd 分别为目标和转换后的 MCEPs 的第 d 系数。
       
       为了探讨训练数据大小的影响,所有系统都使用 52060100200 句不同数量的训练数据进行训练。
       对于基线方法,训练数据由来自源说话人和目标说话人的平行句子组成。
       对于所提出的方法,训练数据仅由目标说话人的句子组成。
       测试数据集有来自源说话人的80个句子。
图片6

6:基线和 PPGs 方法的平均 MCD
M2M 转换实验

       
图片7

7 :基线和 PPGs 方法的平均 MCD
M2F 转换实验

       

        M2MM2F 实验结果分别如图 6 和图 7 所示。
       如图所示,当训练大小分别为 52060 句时, MCD 值随着数据大小的增加而减小。
       当训练大小大于 60 个句子时, MCD 值趋于收敛。
       结果表明,基线方法和本文提出的方法在客观测量方面具有相似的性能。
       

    4.3 主观评价

       我们进行了平均意见评分( MOS )测试和 ABX 偏好测试作为主观评估,以衡量转换语音的自然度和说话人相似度。
       每个系统使用 100 个句子进行训练,随机抽取 10 个句子(不在训练集中)进行测试。 21 名参与者被要求做 MOS 试验和 ABX 试验。
       
       在 MOS 测试中,听众被要求对转换后的讲话的自然程度和清晰程度以 5 分制进行评分。
图片8

8MOS 检验结果与 95% 置信区间一致
M2M :男到男实验       M2F :男到女实验
5 分制: 5 :优秀, 4 :良好, 3 :一般, 2 :差, 1 :很差

       

        MOS 试验结果如图 8 所示。
       基线和 PPGs 方法的平均得分分别为 3.203.87
       
       在 ABX 偏好测试中,听众被要求选择转换后的话语 AB (由两种方法产生)听起来更像目标说话者的录音 X 或没有偏好。
       每一对 AB 都被打乱以避免优先偏向。
图片9

9ABX 偏好测试结果
N/P 表示不优先
M2M :男到男实验       M2F :男到女实验
两次实验的 p 值分别为 2.94×10-164.94×10-3

       

       如图 9 所示,基于 PPGs 的方法通常比基线方法更受青睐。
       
        MOS 测试和 ABX 测试的结果表明,我们提出的基于 PPGs 的方法在语音质量和说话人相似度方面都优于基线方法。
       可能的原因包括:
              1)提出的基于 PPGs 的方法不需要对齐(如 DTW ),避免了可能的对齐误差带来的影响;
              2)仅利用说话人归一化 PPGs 和目标说话人的声学特征对该方法的 DBLSTM 模型进行训练。这最大限度地减少了源说话人信号的干扰。
       

  5 结论

       在本文中,我们提出了一种基于 PPGs 的非并行数据语音转换方法。
        PPGs 通过 SI-ASR 模型获得,用于连接源和目标说话人。
       通过 DBLSTM 结构模拟 PPGs 与声学特征之间的关系。
       该方法不需要并行训练数据,并且对于多对一转换非常灵活,这是与使用并行数据的语音转换( VC )方法相比的两个主要优点。
       实验表明,该方法提高了转换后语音的自然度和与目标语音的相似度。
       
       我们还尝试将我们提出的模型应用到跨语言 VC 中,取得了一些良好的初步效果。
       更多的跨语言应用的研究将在未来进行。
       

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值