【AC论文】ACCENT CONVERSION USING PHONETIC POSTERIORGRAMS

Abstract

AC的目标是针对非母语语音转换为native accent。为了实现这个目标,可以通过将来自native speaker的源频谱映射到non-native speaker的频谱上。在本文提到的模型中主要是针对来自两个的音频文件的语音相似性来进行构建,也就是说,map frame 来自两个speaker到一个phonetic posteriorgram通过使用在native speech上训练过的独立的acoustic model。效果较先前的有了显著提升。

Introduction

提出的模型框架,是基于speaker的phonetic content。可以提取phonetic information from posteriorgram。第一步,针对每一个sourse和target speech frame计算posteriorgram,通过一个用native speech训练好的声学model。随后,我们使用posteriorgram space的对称KL散度匹配source和target frame。将得到一组匹配好的source-target frame align by the phonetic similarity。在最后一步,我们使用frame对训练GMMmodel。该GMM是针对source和target的mel-cepstral相关系数进行建模。考虑其MCEPs的最大似然估计所谓评估准则。

relation to prior work。先前的AC方法直接修改accent信息的语音特征,包括prosody,formants,spectral envelopes or articulatory gesture。相比之下,我们的方法使用VC技术来捕获L2 speaker identity,同时保留母语者的发音特征——segmental and prosodic。然而,与VC方法不同,我们避免align source and target utterance(当目标说话者是non-native时,这是有问题的)。我们使用posteriorgram来纠正mispronounciations并减少non-native speaker,我们专注于speaker-independent的acoustic model,因此我们可以在不重新训练acoustic model的情况下测量phonetic similarity。

Literature review

AC主流算法和模型主要是:acoustic-based 和 articulatory-based。
pic1
(a) conventional VC approach; the L1 and L2 frames are
time-aligned following their ordering in the data; (b) the AC
baseline that uses acoustic similarity through VTLN to pair
frames; (c ) the proposed AC algorithm that uses phonetic
similarity to pair frames

Method

传统的VC方法使用时间对齐来配对来自frame of source and target utterances。从time-aligned frame训练的VC模型将保留L2说话者的口音。相反,要执行AC,pairing必须基于source and target之间的语音相似性。

Frame pairing based on phonetic similarity

model使用posteriorgram去pair acoustic frames from source and target。我们的基本原理很简单:如果基于native speech data训练的speech recognizer确定L2 speech segment y 接近于particular phoneme的native production,那么是合理用y 配对带有本地语音x with相同的phonetic label。

我们的方法工作原理如下。在第一步中,我们计算来自两个speaker的speech frame的feature vector of phonetic posteriors:
在这里插入图片描述
xi是第i个speech frame的acoustic vector;l1,l2,l3···是senone set。所有的后验概率之和为1。
我们使用DNN acoustic model模型计算语音后验。即,我们在input and output之间采用多个p-norm和normalization。每个p-norm层使用p-norm non-linearity,然后是normalization layer,该normalization layer缩小其input的所有dimensions,以防止平均平方输出超过1。DNN的input包括串联的MFCC frame X, 而目标output Y 是使用预先训练的acoustic model强制对准中获得的sensors。在使用随机梯度下降(SGD)对DNN进行微调后,我们使用softmax非线性计算senone的后验概率:
在这里插入图片描述

Spectral conversion

为了确保三种frame配对方法之间的公平比较,我们使用一种常见的频谱转换技术来映射源说话者的频谱特征以匹配目标说话者。也就是说,我们使用GMM来建模源和目标帧对的联合分布,然后使用最大似然参数生成(MLPG),该最大似然参数也考虑了目标说话者的全局方差,以在给定来自源说话者的测试语音信号的情况下生成转换语音。

Pitch scaling

先前的研究已经表明,韵律修饰是口音转换的重要部分。根据Toda等人,我们使用源(母语)说话者的音调轨迹,该轨迹捕获母语语调模式,然后使用对数中的均值和方差归一化将其归一化以匹配目标(L2)说话者的音高范围F0空间。

Experiment setup

DNN acoustic model

我们通过Kaldi的在线档案获得了一个预先训练的DNN声学模型。该模型是一个具有18个隐藏层的p-norm DNN。输入特征是根据具有9-frame 上下文的13-dim 的MFCC向量来计算的;级联的117-dim(13×9)MFCC通过线性判别分析以生成40dim的输入特征向量。输出层具有5816个节点,这些节点对应于senones。DNN声学模型是在Librispeech的训练集上训练的,该训练集包含960小时的英语母语。

speech corpus

对于母语语音语料库,我们使用了CMU ARCTIC数据集中的两个说话者:BDL(男性)和CLB(女性)。

对于非母语(L2)英语语音语料库,我们收集了五位说话者的录音:两位母语为印地语的人(RRBI,男性;TNI,女性),两位母语是韩语的人(HKK和YKWK,均为男性);一名母语为阿拉伯语的人(阿拉伯律师协会,男性)。每一个二语说话者都生成了完整的ARCTIC数据集。对于每个AC方向,我们使用100个平行话语进行训练,使用50个话语进行测试;两盘之间没有重叠。

system configuration

我们使用STRIGHT将语音分解为aperiodicity(AP),F0, 以及513-dim 的spectral envelope。然后,我们从spectral envelope中计算出25个MFCC,以学习VTLN变换并使用声学相似性对帧进行配对。我们还根据频谱包络计算了25个MCEP作为声学特征(不包括MCEP0),以训练GMM并将语音从native-speaker转换为L2-speaker。根据我们之前的工作,所有GMM都有128个具有对角协方差矩阵的混合分量。

一旦我们将原生MCEP转换到L2的空间,我们就从转换后的MCEP重建频谱图,并将其与原生AP相结合,并进行归一化F0合成语音。

我们考虑了五种用于重音转换的说话者配对:BDL到RRBI、BDL到HKK、BDL和YKWK、BDL对ABA以及CLB到TNI。对于每个配对,我们对所有50个测试话语进行了重音转换。

Result

为了评估这三个系统(后验图、两个基线),我们对Mechanical Turk进行了听力研究,以对重新合成的语音的音质、说话者身份和母语进行评分。所有人类受试者都通过了一项筛选测试,该测试包括识别各种美国英语口音。
在这里插入图片描述
在这里插入图片描述
音质:我们使用标准的五分(1-差,5-优)平均意见得分(MOS)来对合成语音的声学质量进行评级。30名听众对150个测试样本进行了评分:每个系统50个,每种conversion10个。

结果如图2a所示。我们发现两个基线系统之间没有统计学差异(2.6对2.5;p = 0.43;双尾t检验;零假设:两个平均值相同)。所提出的方法(后验图)获得3.0 MOS,在统计学上高于基线1(改善20%;p≪ 0.001;单尾t检验)和基线2(改善16%;p ≪ 0.001;单尾ttest)。这些结果表明,所提出的算法可以使用完全相同的训练数据显著提高转换语音的声学质量,甚至不必修改GMM训练和频谱转换方法。

演讲者身份 在之后,我们使用范围从-7(绝对不同的说话者)到+7(绝对相同的说话者)的语音相似性得分(VSS)来评估说话者的身份。26名参与者对150对话语进行了评分:每个系统50对(25对AC母语(L1)和25对AC-L2),每个转换方向10对(从50个测试话语中随机抽取)。

一对话语中的陈述顺序被抵消了。从它们的MCEP中重新合成母语(L1)和L2话语,以匹配重音转换的声学质量。此外,在之后,我们反向播放发音,以防止口音干扰声音身份的感知。结果如图2b所示。

总的来说,这三个系统的语音相似性得分相似,AC母语者的VSS约为-3.5,这表明听众“确信”AC话语与母语者的语音身份不同。同样,AC-L2对接收到大约3.5的VSS,这表明听众“确信”同一个说话者产生了AC和L2话语。我们发现后验图和基线方法之间的VSS没有统计学上的显著差异(AC-native VSS,p ≫ 0.05;AC-l2 vss,p ≫ 0.05;双尾t检验;零假设:两个比较组的平均值相同),这表明后验图(PPG)方法没有牺牲转换语音的语音身份。

attentedness 在最后一个实验中,我们使用偏好测试来确定后验图方法是否确实使L2语音听起来更像母语。30位母语为英语的人对150对话语进行了评分:每次比较50对:后验图与基线1,后验图和
基线2和后验图与L2(即来自L2说话者的原始话语),每个转换方向从50个测试话语中随机抽取10对。单个比较对内的系统顺序是平衡的;每个话语对都来自同一个句子。听众被要求从每一对中选择最像母语(最不像外语)的话语。Aryal和Gutierrez[11]之前已经确定,基线1在这项任务中优于基线2和L2;因此,我们在本研究中省略了这些比较。结果如图3所示。

平均而言,听众非常有信心(平均值:98%,标准差:3%)后验语转换比原始二语话语更像母语。更重要的是,听众肯定后验图方法优于基线1(平均值:69%,STD:11%)和基线2(平均值:72%,STD:10%)。以上所有偏好得分均具有统计学意义(㼿 ≪ 0.001;单尾ttest)与机会水平(50%)相比。

Conclusion

我们提出了一种基于phonetic similarity的frame-pairing方法。为了测量phonetic similarity,我们使用在母语英语语料库上训练的与speaker-independent的acoustic model将源帧和目标帧映射到phonetic posteriorgram space中。通过一系列的感知研究,我们已经表明,仅改变帧配对方法就可以显著提高音质和“nativeness”,同时保持L2 learner的语音质量。

future direction

一些未来的方向值得探索。目前,配对语音帧需要计算高维(后验图)空间中所有可能的帧组合的成对对称KL散度。尽管我们的实现经过了仔细的优化,但它在计算上仍然很昂贵(在高端桌面上处理100个并行语句大约需要10分钟)。可以通过降维和聚类来实现计算时间的进一步减少
另一个未来方向是直接修改语音波形,这已被证明可以减少合成中的过度平滑。我们的最终目标是将这种技术应用于课堂环境中的发音训练。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值