【VC论文】Converting Foreign Accent Speech Without a Reference

voice conversion paper: Converting Foreign Accent Speech Without a Reference

Abstract

外国口音转换(FAC)是生成具有第二语言(L2)学习者的语音身份和母语(L1)使用者的发音模式的合成语音的问题。这种合成声音在发音训练文献中被称为“golden speaker”。FAC通常通过构建将来自源(L1)说话者的话语映射到目标(L2)说话者的语音转换模型来实现。因此,FAC要求来自L1说话者的参考话语在合成时可用。这极大地限制了FAC系统的应用范围。在这项工作中,我们提出了一种“无参考”的FAC系统,该系统在合成时消除了对参考L1话语的需要,并直接转换L2话语。
该系统分两步进行训练。首先,使用传统的FAC过程来使用来自参考L1说话者(然后丢弃)和L2说话者的话语来创建黄金说话者。其次,训练发音校正模型来转换L2话语,以匹配在第一步骤中获得的golden speaker话语。在合成时,发音校正模型直接将一个新的L2话语转换为其golden speaker 对应物。我们的结果表明,该系统减少了新二语话语中的外国口音,实现了美国英语自动语音识别器的单词错误率相对降低20.5%,以及通过听力测试获得的外国口音感知评级降低19%。超过73%的听众还认为黄金扬声器的话语与原始L2话语具有相同的语音身份。

introduction

外国口音转换(FAC)旨在创建一种合成语音,该语音具有非母语人士的语音身份(或音色),但具有母语人士的发音模式(或口音)。在计算机辅助发音训练的背景下,这种合成语音通常被称为非母语(第二语言)学习者的“黄金扬声器”。其理由是,与任意母语的人相比,黄金说话者是二语学习者更好的模仿目标,因为黄金说话者和二语学习器自己的声音之间的唯一区别是口音,这使得发音错误更加突出。除了发音训练外,FAC还应用于电影配音、个性化文本到语音(TTS)合成和提高自动语音识别(ASR)性能。
FAC中的主要挑战是,人们没有所需黄金说话者的基本事实数据,因为一般来说,L2 speaker无法产生带有native的语音。因此,将传统的语音转换技术应用于FAC问题是不可行的。以前的解决方案通过在合成时要求母语(L1)的人发出参考话语来解决这个问题(提供ref)。但这限制了FAC技术可以提供的发音练习的类型,例如,L2学习者只能练习已经由参考L1说话者预先录制的句子。
为了解决这个问题,我们提出了一种新的FAC系统,该系统在inference时不需要参考L1话语。我们将这种类型的FAC系统称为无参考系统 reference-free。
因此,我们有一组来自L2学习者和参考L1说话者的平行话语的训练集。培训流程包括两个步骤。在第一步中,我们构建了一个L2语音合成器,该合成器将来自L2话语的语音嵌入(见下文)映射到它们对应的Mel声谱图中。
语音嵌入是使用在大型母语语音语料库上训练的声学模型提取的,因此它们与说话者相关。然后,我们用从L1话语中提取的语音嵌入来驱动L2合成器。这产生了一组黄金说话者话语,其具有L2学习者的语音身份(因为它们是从L2合成器生成的)和L1说话者的发音模式(因为输入是从L1话语获得的)。在这一点上可以丢弃L1话语。
在第二步(也是关键的一步)中,我们训练了一个发音校正模型,该模型将L2话语转换为与第一步中获得的作为目标的黄金扬声器话语相匹配。在推理过程中,我们可以将一个新的L2话语输入发音校正模型,然后该模型生成其“accent free”对应词。

发音校正模型 pronunciation-correction model基于Zhang等人提出的最先进的序列到序列(seq2seq)语音转换框架,我们将其用作基线。他们的系统包括一个编码器,用于提取输入特征的隐藏表示(例如,梅尔谱),一个注意力机制,用于学习输入和输出序列之间的对齐,一个解码器,用于预测输出梅尔谱图,以及多任务音素分类器,用于帮助稳定训练过程。在我们对基线系统的内部评估中,我们发现它很难在L2和L1说话者之间转换,因为L2话语往往有大量的不流畅和犹豫,这使得注意力机制很难正确地对齐输入和输出序列。为了解决这个问题,我们的系统在发音校正模型中包括了前向和后向解码技术forward-and-backward,以帮助注意力机制和解码器充分利用输入数据中的信息。其原理是,通过在训练过程中迫使解码器从前向和后向计算注意力对齐,我们可以使解码器在生成对齐时结合来自过去和未来的有用上下文信息。在整个研究过程中,我们使用高质量的WaveGlow实时神经声码器将Mel声谱图转换为语音波形。
文章结构整理如下。第二节回顾了FAC的现有方法以及seq2seq语音转换的相关工作。第三节介绍了拟议的无参考FAC系统。第五节、第四节和第六节介绍了客观和主观评估结果,并对这些结果进行了深入讨论。最后,我们在第七节中总结了这项工作的发现,并指出了未来的研究方向。我们包括三个提供相关细节的附录。

related work

conventional FAC methods

FAC与语音转换(VC)这一更普遍的问题有关。在VC中,人们试图将源说话者的语音转换为(已知的)目标说话者的语音。转换旨在匹配目标说话者的声音特征,包括声道配置、声门特征、音高范围、发音和说话速率;理想情况下,从源语音中保留的唯一信息是其语言内容,即所说的单词。
与VC相比,FAC试图将源说话者的语言内容和发音特征与目标说话者的语音身份相结合。这是一个比VC更具挑战性的问题,原因有两个。首先,FAC缺乏基本事实,因为通常没有L2说话者产生具有期望的本地目标口音的语音的记录(缺少平行语料)。但是,更重要的是,FAC需要将语音分解为语音身份和accent,而VC则不需要。已经提出了几种技术来进行这种分解,可以分为发音和声学方法。
发音articulatory方法的基本策略是为L2说话者构建发音合成器,也就是说,从说话者的发音轨迹(例如,舌头和嘴唇的运动)到他或她的声学特征(例如,Mel Cepstra)的映射。一旦完成,L2说话者的发音合成器由L1说话者的发音轨迹驱动,以产生“无重音”语音。许多技术可用于构建发音合成器,包括unit-selection[18]、GMM[19]和DNN[20]。
将发音域中的语音身份与重音解耦是直观的,但在大多数情况下是不切实际的,因为收集发音数据是昂贵的,并且需要专门的设备。相比之下,在声学领域将语音身份与口音解耦更实用,因为它只需要用麦克风记录语音,但从语音处理的角度来看更具挑战性。VC中使用的传统方法(通过动态时间扭曲对源帧和目标帧进行配对;DTW)不能在FAC中使用,因为它会导致将本地重音源映射到非本地重音目标语音的模型。相反,源帧和目标帧必须根据它们的语言相似性进行配对。在早期的工作中,Aryal和Gutierrez-Osuna[24]用一种技术取代了DTW,该技术在执行声道长度(VTL)归一化后,基于源帧(L1)和目标帧(L2)的MFCC相似性来匹配源帧和目标帧。然后,他们用这些帧对训练GMM,以将源L1话语映射为具有目标L2说话者的身份,同时保留本地发音。最近,赵等人[25]使用与说话者无关的声学模型(即来自ASR系统)来估计每个帧属于一组预定义语音单元的后验概率,即语音后验图(PPG)[26]。一旦为语料库中的每个源帧和目标帧计算了PPG,就根据它们各自的PPG之间的相似性,以多对多的方式将两者配对[11],[25]。在他们的研究中,基于PPG相似性匹配源帧和目标帧在重音和音质方面比基于Aryal和Gutierrez-Osuna的VTL归一化MFCC相似性匹配它们获得了更好的评级[24]。(PPG最优)

FAC methods using sequence-to-sequence model

最近,赵等人[27]使用序列-序列(seq2seq)模型来执行FAC。在他们的方法中,seq2seq语音合成器被训练为使用L2 speaker的录音将PPG转换为Mel频谱。然后,通过用从L1话语中提取的PPG驱动seq2seq合成器来生成goldenspeaker话语,这是一个回忆基于发音的方法的过程(即,如果PPG被视为发音信息)。
他们的方法产生的语音重音明显低于最初的二语语音。Seq2seq模型在VC文献中也引起了很大的关注,因为与之前的逐帧VC模型不同。Miyoshi等人建立了一个seq2seq模型,将源上下文后验概率映射到目标的后验概率;与没有上下文后验映射过程的基线相比,他们获得了更好的语音个性评级(但音频质量更差)。
张等人将瓶颈特征和源扬声器的Mel声谱图进行级联,使用seq2seq模型将级联的源特征转换为目标Mel声纹图,并最终使用WaveNet[36]声码器恢复语音波形。
该模型的表现优于2018年语音转换挑战赛中表现最好的系统。张等然后在之上应用文本监督来解决转换语音中的一些发音错误和伪像。
最近,他们用可训练的语言和说话者嵌入将他们的框架扩展到非平行条件。其他值得注意的序列到序列VC工作包括,它提出了一个新的损失项,该项强制注意权重对角化以稳定seq2seq训练;Parrotron系统,该系统使用大规模语料库和seq2seq模型将任意说话者的语音归一化为合成TTS语音;和其使用全卷积seq2seq模型而不是传统的递归神经网络(RNN,例如LSTM),因为RNN训练成本高,并且难以优化并行计算。

prior reference-free FAC approach

据我们所知,关于无参考FAC的唯一先前工作是刘等人最近的一项研究。他们的系统使用了扬声器编码器、多扬声器TTS模型和ASR编码器。说话者编码器和TTS模型仅使用L1语音进行训练,ASR编码器基于来自L1说话者和目标L2说话者的语音数据进行训练。在测试过程中,他们使用说话人编码器和ASR编码器分别从输入的L2测试话语中提取说话人嵌入和语言表示。
然后,他们将两者连接起来,并将其提供给多扬声器TTS模型,然后该模型生成经过重音转换的话语。他们的评估表明,转换后的语音具有接近母语的口音,但没有捕捉到目标L2说话者的语音身份,因为它必须由他们的多说话者TTS进行插值。我们提出的方法避免了这个问题,因为我们的发音校正模块是在使用传统FAC框架为L2说话者预先生成的黄金说话者话语上训练的。

method

我们提出的无参考FAC方法如图1所示。
this pic
该系统需要来自L2说话者和参考L1说话者的平行话语语料库。如引言和图所示,培训过程包括两个步骤。在第一步中,我们为L2 speaker构建了一个语音合成器,该合成器将语音嵌入转换为Mel声谱图。
然后,我们用参考L1说话者的一组话语驱动L2合成器,以产生一组黄金说话者话语(即,具有L1发音模式的L2语音身份 L2音色)我们称这些为L1黄金扬声器(L1-GS)话语,因为它们是使用L1话语作为参考获得的。在这一点上可以丢弃L1话语。

在第二步中,我们建立了一个发音校正模型,该模型直接转换L2话语,以匹配在前一步中获得的它们对应的L1-GS话语,也就是说,不需要L1参考。我们将发音校正模型的输出称为L2-GS话语,因为它们是直接从L2话语生成的(即,以无参考的方式)。在这个过程中,关键是扬声器嵌入的生成,我们首先描述它。

extractiong speaker-independent speech embeddings

我们使用声学模型(AM)来生成用于输入(L1或L2)话语的扬声器相关(SI)语音嵌入。我们的AM是一个因子化时间延迟神经网络(TDNN-F),一个前馈神经网络,它利用其隐藏层中的时间延迟输入来建模长期时间依赖性。TDNN-F可以在大型局部连续语音识别(L-VCSR)任务上实现与基于递归结构的AM(例如,Bi-LSTM)相当的性能,但由于其前馈性质,在训练和推理过程中更有效。
为了产生SI语音嵌入,我们将每个声学特征向量(40dim MFCC)与相应说话者的i向量(100dim)连接起来[声学特征+speaker 特征],并将它们用作AM的输入,然后我们在几千个母语者的大型语料库上训练AM(Librispeech)。

作为本研究的一部分,我们评估了三种不同的语音嵌入:

  • Senone PPG:AM的最终softmax层的输出是高维的(6024 senones),并且包含关于输入话语中的发音模式的细粒度fine-grained信息。
  • BNF: AM的最终softmax层之前的层的输出。BNF包含用于音素识别任务的丰富的可分类信息,但维度较低(256)。
  • Mono PPG:通过将senones折叠成单音符号(346个具有单词位置的单音,例如单词首字母、单词韵母)获得的语音后验图。对于每个单声道符号,我们聚合共享同一根单声道的所有senone的概率质量。图2显示了一个口语单词的单声道PPG。我们省略了其他两个语音嵌入的可视化,因为它们更难解释。“balloon”的可视化

step1: generating a reference-based golden-speaker(L1-GS)

语音合成器基于改进的Tacotron2架构5,如图3所示。该模型遵循具有注意力机制的通用编码器-解码器(或seq2seq)范式。从概念上讲,编码器-解码器架构使用编码器(通常是递归神经网络;RNN)来“消耗”输入序列并生成高级隐藏表示序列。
在这里插入图片描述
然后,解码器(具有注意力机制的RNN)处理隐藏的表示序列。注意力机制允许解码器决定隐藏表示序列的哪些部分包含用于进行预测的有用信息。
我们的语音合成器将语音嵌入作为输入。然后,如果输入语音嵌入具有高维度(例如,Senone PPG),我们通过可学习的输入PreNet来降低它们的维度。当使用高维语音嵌入作为输入时,该步骤对于模型收敛至关重要。对于具有较低维度的语音嵌入,如单声道PPG和BNF,我们跳过输入PreNet。然后,语音嵌入通过多个一维卷积层,对长期上下文进行建模。接下来,编码器(一个Bi-LSTM)将卷积转换为隐藏的语言表示序列。最后,我们将隐藏的语言表示序列传递给解码器,解码器由位置敏感注意力机制和解码器LSTM组成,以预测原始Mel声谱图。我们注意到,语音合成器的输入和输出序列具有相同的长度,因此,语音合成器仅对说话者身份进行建模,并保留输入语音嵌入所携带的语音和韵律线索。
PostNet的优点是它可以看到整个解码序列。因此,PostNet可以使用过去和未来的信息来校正每个单独帧的预测误差。
训练该语音合成器的损失函数是,
L = w 1 ( ∥ Y mel  − Y ^ m e l Decoder  ∥ 2 + ∥ ∣ Y mel  − Y ^ m e l Post Net  ∥ 2 ) + w 2 C E ( Y stop  , Y ^ stop  ) ,  \begin{aligned} & L=w_{1}\left(\left\|Y_{\text {mel }}-\hat{Y}_{m e l}^{\text {Decoder }}\right\|_{2}+\left\|\mid Y_{\text {mel }}-\hat{Y}_{m e l}^{\text {Post Net }}\right\|_{2}\right) \\ & +w_{2} \mathrm{CE}\left(Y_{\text {stop }}, \hat{Y}_{\text {stop }}\right) \text {, } \end{aligned} L=w1( Ymel Y^melDecoder  2+ Ymel Y^melPost Net  2)+w2CE(Ystop ,Y^stop )

step2: generating the reference-free golden speaker(L2-GS) via pronunciation-correction

我们的发音校正模型是基于张等人提出的最先进的seq2seq VC系统。我们选择该系统作为基线,因为它在2018年语音转换挑战赛中的表现优于最佳系统[37]。使用VC系统作为发音校正模型背后的原理是VC可以转换语音身份和重音以匹配目标说话者。在我们的应用场景中,我们将L2说话者和L1-GS分别视为VC任务中的源说话者和目标说话者。由于两个说话者已经共享相同的语音身份,VC模型只需要匹配目标说话者(即黄金说话者)的口音。

在推理阶段,我们可以直接将L2语音输入到发音校正模型中,输出将与L1-GS共享类似的发音模式。这一过程的困难在于,二语使用者往往有不流畅、犹豫和发音不一致的现象,这使得转换比在两个母语使用者之间转换要困难得多,正如先前文献[11]中所讨论的那样。为了克服这一困难,我们建议除了基线发音模型外,还使用前向和后向解码技术[13]、[14]的变体,以实现更好的发音校正性能。我们首先正式介绍了基线系统,然后描述了所提出的改进。
基线系统也基于具有注意力机制的编码器-解码器范例。图4显示了基线系统的概述。与传统的逐帧VC系统(例如,GMM、前馈神经网络)不同,后者需要源和目标说话者之间的时间对齐来生成训练帧对,seq2seq系统使用注意力机制来在输入和输出序列之间产生可学习的对齐。因此,它们还可以调整输入和输出序列之间的韵律差异(例如,音高、持续时间和重音)。在我们的应用中,这是至关重要的,因为韵律错误也会导致外国口音。

在这里插入图片描述
baseline loss function:
L base  = w 1 ( ∥ Y mel  − Y ^ mel  Decoder  ∥ 2 + ∥ ∣ Y mel  − Y ^ mel  PostNet  ∥ 2 ) + w 2 C E ( Y stop  , Y ^ stop  ) + w 3 ( C E ( Y inP  P , Y ^ inP  ) + C E ( Y out  P , Y ^ out  P ) ) , \begin{aligned} & L_{\text {base }}=w_{1}\left(\left\|Y_{\text {mel }}-\hat{Y}_{\text {mel }}^{\text {Decoder }}\right\|_{2}+\left\|\mid Y_{\text {mel }}-\hat{Y}_{\text {mel }}^{\text {PostNet }}\right\|_{2}\right) \\ & +w_{2} \mathrm{CE}\left(Y_{\text {stop }}, \hat{Y}_{\text {stop }}\right) \\ & +w_{3}\left(\mathrm{CE}\left(Y_{\text {inP } P}, \hat{Y}_{\text {inP }}\right)+\mathrm{CE}\left(Y_{\text {out } P}, \hat{Y}_{\text {out } P}\right)\right), \end{aligned} Lbase =w1( Ymel Y^mel Decoder  2+ Ymel Y^mel PostNet  2)+w2CE(Ystop ,Y^stop )+w3(CE(YinP P,Y^inP )+CE(Yout P,Y^out P)),
为了提高预测性能,我们提出了一种对基线系统的修改,在训练过程中应用前向和后向解码。正向和反向解码技术保持两个独立的解码器,即正向和反向解码器。正向解码器在正向方向上处理编码器输出,而反向解码器反向读取编码器输出。该技术的不同变体已应用于TTS[14]和ASR[13]。图5显示了该过程的概述。在训练过程中,我们在基线模型中添加了一个反向解码器。后向解码器具有与现有解码器(表示为前向解码器)相同的结构,但具有不同的权重集。后向解码器的功能与前向解码器相同,不同之处在于它以相反的顺序处理编码器的输出,并反向预测输出mel。
loss function:
L b w d = w 1 ( ∥ Y mel  − Y ^ mel  bwd  ∥ 2 + ∥ Y mel  − Y ^ mel-Post  bwet  ∥ 2 ) + w 2 CE ⁡ ( Y stop  , Y ^ stop  bwd  ) + w 3 ( C E ( Y outP  , Y ^ outP  bwd  ) ) . \begin{aligned} L_{b w d}= & w_{1}\left(\left\|Y_{\text {mel }}-\hat{Y}_{\text {mel }}^{\text {bwd }}\right\|_{2}+\left\|Y_{\text {mel }}-\hat{Y}_{\text {mel-Post }}^{\text {bwet }}\right\|_{2}\right) \\ & +w_{2} \operatorname{CE}\left(Y_{\text {stop }}, \hat{Y}_{\text {stop }}^{\text {bwd }}\right)+w_{3}\left(\mathrm{CE}\left(Y_{\text {outP }}, \hat{Y}_{\text {outP }}^{\text {bwd }}\right)\right) . \end{aligned} Lbwd=w1( Ymel Y^mel bwd  2+ Ymel Y^mel-Post bwet  2)+w2CE(Ystop ,Y^stop bwd )+w3(CE(YoutP ,Y^outP bwd )).
L a t t = w 4 ∥ α f w d − α b w d ∥ 2 , L_{a t t}=w_{4}\left\|\alpha_{f w d}-\alpha_{b w d}\right\|_{2}, Latt=w4αfwdαbwd2,
L proposed  = L b a s e + L b w d + L a t t . L_{\text {proposed }}=L_{b a s e}+L_{b w d}+L_{a t t} . Lproposed =Lbase+Lbwd+Latt.

waveglow vocoder

使用WaveGlow声码器将语音合成器的输出转换回语音波形。

experimental setup

对于FAC任务(训练语音合成器、WaveGlow神经声码器和发音校正模型),我们使用了一个来自CMUARCTIC语料库的母语人士(BDL;美国口音)和两个来自L2-ARCTIC语料库的非母语人士(YKWK,韩语;TXHC,汉语)。

我们将来自所有说话者的数据划分为非重叠训练(1032个话语)、验证(50个话语)和测试(50个言语)集。BDL的记录以16kHz采样。
L2-ARCTIC语料库中的记录从44.1kHz到16kHz进行重新采样,以匹配BDL的采样率,并用Audacity进行预处理,以去除任何环境背景噪声。

在所有FAC任务中,我们提取了具有10ms偏移和64ms窗口大小的80dim梅尔谱图。所有神经网络模型都在PyTorch中实现,并使用NVIDIA P100 GPU进行训练。

experiments and results

我们进行了两个实验,根据一组全面的客观指标(例如,单词错误率、梅尔倒谱失真)和主观指标(外国口音程度、音频质量和语音相似性)来评估所提出的FAC系统。在实验1中,我们评估了L2语音合成器生成的基于参考的黄金扬声器(L1-GS)(第III-B节)。然后,在实验2中,我们评估了发音校正模型产生的无参考金说话者(L2-GS)(第III-C节)。

Experiment 1: Evaluating the Reference-Based Golden Speaker (L1-GS)

  • senone PPG: 使用senone PPG作为输入(6024个维度)
  • mono PPG: 使用单声道PPG作为输入(346维)
  • BNF: 使用瓶颈特征向量作为输入(256维)

客观评价指标:WER
在这里插入图片描述
主观评价指标:accentedness(测试口音重不重)、MOS(音频质量)
在这里插入图片描述
声音相似度测试
在这里插入图片描述

Experiment 2: Evaluating the Reference-Free Golden Speaker (L2-GS)

测试4个系统:baseline1;baseline2; Proposed (without att loss); Proposed
客观指标:对于客观评估,我们计算了三个指标,如所示,加上WER作为第四个指标:

  • MCD:L2GS(实际输出)和L1-GS语音(期望输出)之间的梅尔倒谱失真[28]。它是根据L2-GS和L1-GS音频之间的时间对齐(动态时间扭曲)梅尔倒谱来计算的。较低的MCD与较好的频谱预测相关。我们使用SPTK[63]和WORLD声码器[64]在有声帧上的L2-GS和L1GS语音之间提取偏移大小为10ms.
  • F0 RMSE: F0 RMSE的梅尔倒谱。更低的F0 RMSE表示更好的音调转换性能。F0和语音特征由WORLD声码器和Harvest音高跟踪器[65]提取。
  • DDUR:L2-GS和L1-GS语音之间持续时间的绝对差异。更低的DDUR意味着更好的持续时间转换性能。
  • WER:L2-GS语音的单词错误率。理想情况下,L2-GS语音的WER应低于原始非母语语音,这意味着转换减少外国口音。
    在这里插入图片描述
    主观评测:accentedness,MOS,speaker similarity
    在这里插入图片描述

future work

  • 这项工作的一个可能的未来方向是使用迁移学习来减少黄金扬声器生成过程所需的训练数据量。这将需要首先以语音嵌入和扬声器嵌入(例如,i向量)作为输入来训练多扬声器语音合成器,然后使用来自参考L1扬声器的语音嵌入和来自L2扬声器的扬声器嵌入来执行推断。这种策略的好处是训练多扬声器语音合成器通常只需要特定扬声器(例如L2扬声器)的少量录音。
  • 另一个未来的研究方向是提高发音校正模型的质量。当前系统的一个可能提高音频质量的直接扩展是联合优化发音校正模型和神经声码器。系统的当前设置用“干净”的原始Mel声谱图训练WaveGlow模型,这导致发音校正模型(合成Mel声纹图)的输出与神经声码器的预期输入之间不匹配。质量改进的另一种可能性是直接在外国口音和本地语音嵌入之间进行转换,以纠正发音错误。这似乎是可行的,因为语音嵌入(例如,BNF)包含丰富的可分类语音信息,该信息与可能干扰校正过程的其他特定于说话者的线索解耦。这种方法的好处有两方面。首先,它将消除生成L1-GS的需要,因为我们可以直接使用L1教师的语音嵌入作为训练目标。其次,通过结合来自具有相同外国口音的说话者的数据,这种方法将使我们能够为每种第一语言(例如,针对中国英语二语学习者)训练特定的发音校正模型,与依赖说话者的模型相比,该模型可以覆盖更多的发音错误变化,正如我们在当前工作中所做的那样,从而提高了合成的重音评级。AQ最后,我们打算研究其他更简单的注意力正则化技术[67],作为本工作中使用的前向和后向解码技术的替代方案。一种更简单的注意力正则化技术将有助于发音校正模型降低其训练成本。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值