作者:tanxu
会议:IJCAI 2020
单位:微软
acoustic model
AR & LSTM model
Tacotron(location sensitive attention)
DurIAN
- 单独的duration model,时长显示可控
NAR & CNN/Transformer model
DeepVoice 3
- 全CNN结构,推理加速,支持不同的声学特征输出(vocoder: world, GL, WaveNet),支持multi-speaker(2000人,小数据量)
TransformerTTS
- 和tacotron结构类似,将encoder&decoder中的lstm替换为transformer;并行化训练,且质量与tacotron2相当;因为并行化计算,attention的鲁棒性不足(??)
Fastspeech2
- fastspeech是基于teacher-student方法训练,知识蒸馏过程中有信息损失;
- fastspeech2为了解决一对多的问题,加入额外的条件输入(duration,pitch,energy),训练阶段这些特征直接从target中提取,infer阶段是predictor预测的(predictor和FastSpeech2模型一起训练);
VITS
- FLOW-based, end2end
vocoder
LPCNet
- AR model,BFCC,~20M
HiFiGan
- NAR model,mel, ~54M
PWG
Advanced topics in TTS
expressive
Synthesize clean speech for noisy speakers
- denoise speech用于TTS训练
- noisy or clean embedding作为ref,noisy speech输入的时候搭配clean emb,句子级别的;
- noisy condition module:实际上是noisy extractor + noise encoder,逐帧编码噪声信息,制造paired noisy speech
adaptive for everyone
- basemodel的泛化性要足够强,因为target speaker的风格可能有异于基础数据库,这样性能就会明显下降;
- 少量数据的情况下,只finetune部分相关参数;(拆分成phn encoder, speaker encoder等多个部分,只更新speaker encoder)
- AdaSpeech 2:少量说话人数据
- AdaSpeech 3:朗读风格到自由风格
expressive TTS
cycle consistency/ feedback for control
-
涉及到向量相似度的计算:欧式距离,余弦距离和余弦相似度,曼哈顿距离
[30] 控制说话人向量
From Speaker Verification to Multispeaker Speech Synthesis, Deep Transfer with Feedback Constraint -
SV生成speaker embedding作为TTS的说话人信息;TTS生成的语音送回SV计算spk_emb的相似距离(LDA/PLDA);
[195] 控制情感风格
Controllable Emotion Transfer For End-to-End Speech Synthesis
-
训练一个emotion ref_encoder,中间层作为emotion embedding,最终输出的mel再次抽取emotion embedding,认为两者应该是一致的;
[207] 情感/风格控制
Expressive tts training with frame and style reconstruction loss -
帧级别的mel-loss,句子级别的prosody 一致性loss
[202] 非平行数据的TTS情感控制
Improving Unsupervised Style Transfer in end-to-end Speech Synthesis with end-to-end Speech
- motivation:之前TTS的ref-encoder 通常train的时候和文本是对应一句话,但是在infer的时候不是一句话;为了解决这个问题,我们在训练的时候也不用一句话,然后额外添加一个ASR系统控制合成的文本。
semi-supervised learning for control
[103] 半监督的方法实现小数据量控制TTS风格
Semi-Supervised Generative Modeling for Controllable Speech Synthesis
- motivation: 传统TTS风格控制的方法需要大量的数据控制比如情感、语速这样隐式的特征;通过加入supervised embedding,实现控制。
- 实验以语速和基频作为目标,语速给一个标准,然后计算;基频计算mean/var,然后高斯重采样;