ProsoSpeech: Enhancing Prosody With Quantized Vector Pre-training in Text-to-Speech

  • renyi , leiming
  • ICASSP2022

abstract

  • 韵律建模困难,在于:(1)基频提取不可避免的有误差;(2)不同的成分(picth, energy, duration)彼此依赖;(3)基频变动很大,但是用于训练的高质量数据很少。
  • (1) 加入word-level 文本信息;(2)韵律信息不来自于直接提取,训练阶段从mel经由prosody encoder提取解耦的韵律特征(word-level),预测阶段来自LPV Predictor从word-level文本信息中自回归预测。

method

在这里插入图片描述

  • mel reconstruct loss使用SSIM+L2 loss

prosody encoder

  • prosody encoder:核心逻辑是通过auto-encoder编码。输入mel-first20bins,包含全量韵律信息,较少的音色和文本信息。输出端拼接显式的文本信息和说话人信息,倒逼LPV的编码结果仅和韵律有关。首先一层卷积,处理成word-level的特征(按照先验的边界时长),然后经过一层卷积,送入EMA-Based vector quantization(exponential moving averages,指数移动平均线)。
  • 训练技巧:(1)前20k step,移除vector quantization,让auto-encoder自由的进行编码学习;(2)20k之后,用k-means聚类的结果初始化vector quantization的codebook;(3)将vector quantization层加回来,继续训练。如果不这样做的话,开始若干步,hidden emb是毫无意义的噪声,做vector quantization的话会index collapse(字典学崩了)。

Latent Prosody Vector Predictor

  • 自回归的结构,word-level的编码,输入word文本和 L P V i − 1 LPV_{i-1} LPVi1,预测 L P V i LPV_{i} LPVi

Pre-training and Fine-tuning

  • 整个训练过程包括TTS training(Fastspeech + prsody encoder)
  • LPV predictor的训练:unpaired text训练content encoder(BERT-masked),noisy-speech经过prosody encoder生成的noisy LPV训练LPV predictor,最后用高质量的TTS数据finetune LPV predictor。

experiment

dataset

  • 30h高质量的数据,51M网上爬取的中文文本,300h的低质量speech数据。
  • HiFiGan vocoder

测试

  • pitch dynamic time warping
  • duration KL-divergence

在这里插入图片描述

  • ProsoSpeech的各项数据都变好,相比于fastpseech2(joint)好,说明本方法对于低质量数据预训练是必要的;fastpseech2(joint)相比于fastspeech变差,说明如果直接加入脏数据训练,效果会被拉垮。
    在这里插入图片描述
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值