ProsoSpeech: Enhancing Prosody With Quantized Vector Pre-training in Text-to-Speech

最新推荐文章于 2024-09-29 21:11:02 发布

林林宋

最新推荐文章于 2024-09-29 21:11:02 发布

阅读量306

点赞数

分类专栏： paper笔记文章标签：深度学习人工智能

原文链接：https://arxiv.org/abs/2202.07816

版权

162 篇文章 24 订阅

订阅专栏

abstract

韵律建模困难，在于：（1）基频提取不可避免的有误差；（2）不同的成分（picth, energy, duration）彼此依赖；（3）基频变动很大，但是用于训练的高质量数据很少。
(1) 加入word-level 文本信息；（2）韵律信息不来自于直接提取，训练阶段从mel经由prosody encoder提取解耦的韵律特征（word-level），预测阶段来自LPV Predictor从word-level文本信息中自回归预测。

在这里插入图片描述

prosody encoder：核心逻辑是通过auto-encoder编码。输入mel-first20bins，包含全量韵律信息，较少的音色和文本信息。输出端拼接显式的文本信息和说话人信息，倒逼LPV的编码结果仅和韵律有关。首先一层卷积，处理成word-level的特征（按照先验的边界时长），然后经过一层卷积，送入EMA-Based vector quantization（exponential moving averages，指数移动平均线）。
训练技巧：（1）前20k step，移除vector quantization，让auto-encoder自由的进行编码学习；（2）20k之后，用k-means聚类的结果初始化vector quantization的codebook；（3）将vector quantization层加回来，继续训练。如果不这样做的话，开始若干步，hidden emb是毫无意义的噪声，做vector quantization的话会index collapse（字典学崩了）。

整个训练过程包括TTS training（Fastspeech + prsody encoder)
LPV predictor的训练：unpaired text训练content encoder（BERT-masked)，noisy-speech经过prosody encoder生成的noisy LPV训练LPV predictor，最后用高质量的TTS数据finetune LPV predictor。