文章目录
- renyi , leiming
- ICASSP2022
abstract
- 韵律建模困难,在于:(1)基频提取不可避免的有误差;(2)不同的成分(picth, energy, duration)彼此依赖;(3)基频变动很大,但是用于训练的高质量数据很少。
- (1) 加入word-level 文本信息;(2)韵律信息不来自于直接提取,训练阶段从mel经由prosody encoder提取解耦的韵律特征(word-level),预测阶段来自LPV Predictor从word-level文本信息中自回归预测。
method
- mel reconstruct loss使用SSIM+L2 loss
prosody encoder
- prosody encoder:核心逻辑是通过auto-encoder编码。输入mel-first20bins,包含全量韵律信息,较少的音色和文本信息。输出端拼接显式的文本信息和说话人信息,倒逼LPV的编码结果仅和韵律有关。首先一层卷积,处理成word-level的特征(按照先验的边界时长),然后经过一层卷积,送入EMA-Based vector quantization(exponential moving averages,指数移动平均线)。
- 训练技巧:(1)前20k step,移除vector quantization,让auto-encoder自由的进行编码学习;(2)20k之后,用k-means聚类的结果初始化vector quantization的codebook;(3)将vector quantization层加回来,继续训练。如果不这样做的话,开始若干步,hidden emb是毫无意义的噪声,做vector quantization的话会index collapse(字典学崩了)。
Latent Prosody Vector Predictor
- 自回归的结构,word-level的编码,输入word文本和 L P V i − 1 LPV_{i-1} LPVi−1,预测 L P V i LPV_{i} LPVi
Pre-training and Fine-tuning
- 整个训练过程包括TTS training(Fastspeech + prsody encoder)
- LPV predictor的训练:unpaired text训练content encoder(BERT-masked),noisy-speech经过prosody encoder生成的noisy LPV训练LPV predictor,最后用高质量的TTS数据finetune LPV predictor。
experiment
dataset
- 30h高质量的数据,51M网上爬取的中文文本,300h的低质量speech数据。
- HiFiGan vocoder
测试
- pitch dynamic time warping
- duration KL-divergence
- ProsoSpeech的各项数据都变好,相比于fastpseech2(joint)好,说明本方法对于低质量数据预训练是必要的;fastpseech2(joint)相比于fastspeech变差,说明如果直接加入脏数据训练,效果会被拉垮。