Neural Text to Speech Synthesis

林林宋

已于 2022-02-22 09:27:27 修改

阅读量835

点赞数

分类专栏： paper笔记文章标签：深度学习 transformer 计算机视觉

于 2022-02-15 21:41:13 首次发布

本文链接：https://blog.csdn.net/qq_40168949/article/details/122951905

版权

paper笔记专栏收录该内容

162 篇文章 23 订阅

订阅专栏

作者：tanxu
会议：IJCAI 2020
单位：微软

acoustic model

AR & LSTM model

Tacotron（location sensitive attention)

在这里插入图片描述

DurIAN

单独的duration model，时长显示可控

NAR & CNN/Transformer model

DeepVoice 3

全CNN结构，推理加速，支持不同的声学特征输出（vocoder: world, GL, WaveNet），支持multi-speaker（2000人，小数据量）

TransformerTTS

和tacotron结构类似，将encoder&decoder中的lstm替换为transformer；并行化训练，且质量与tacotron2相当；因为并行化计算，attention的鲁棒性不足（??)

Fastspeech2

在这里插入图片描述

fastspeech是基于teacher-student方法训练，知识蒸馏过程中有信息损失；
fastspeech2为了解决一对多的问题，加入额外的条件输入（duration，pitch，energy），训练阶段这些特征直接从target中提取，infer阶段是predictor预测的（predictor和FastSpeech2模型一起训练）；

VITS

在这里插入图片描述

FLOW-based， end2end

vocoder

在这里插入图片描述

LPCNet

AR model，BFCC，～20M

HiFiGan

NAR model，mel, ~54M

PWG

Advanced topics in TTS

在这里插入图片描述

expressive

在这里插入图片描述

Synthesize clean speech for noisy speakers

denoise speech用于TTS训练
noisy or clean embedding作为ref，noisy speech输入的时候搭配clean emb，句子级别的；
noisy condition module：实际上是noisy extractor + noise encoder，逐帧编码噪声信息，制造paired noisy speech

adaptive for everyone

basemodel的泛化性要足够强，因为target speaker的风格可能有异于基础数据库，这样性能就会明显下降；
少量数据的情况下，只finetune部分相关参数；（拆分成phn encoder, speaker encoder等多个部分，只更新speaker encoder)
AdaSpeech 2：少量说话人数据
AdaSpeech 3：朗读风格到自由风格

expressive TTS

cycle consistency/ feedback for control

涉及到向量相似度的计算：欧式距离，余弦距离和余弦相似度，曼哈顿距离
[30] 控制说话人向量
From Speaker Verification to Multispeaker Speech Synthesis, Deep Transfer with Feedback Constraint
SV生成speaker embedding作为TTS的说话人信息；TTS生成的语音送回SV计算spk_emb的相似距离(LDA/PLDA)；

[195] 控制情感风格
Controllable Emotion Transfer For End-to-End Speech Synthesis

训练一个emotion ref_encoder，中间层作为emotion embedding，最终输出的mel再次抽取emotion embedding，认为两者应该是一致的；

[207] 情感/风格控制
Expressive tts training with frame and style reconstruction loss
帧级别的mel-loss，句子级别的prosody 一致性loss

在这里插入图片描述

[202] 非平行数据的TTS情感控制
Improving Unsupervised Style Transfer in end-to-end Speech Synthesis with end-to-end Speech

motivation：之前TTS的ref-encoder 通常train的时候和文本是对应一句话，但是在infer的时候不是一句话；为了解决这个问题，我们在训练的时候也不用一句话，然后额外添加一个ASR系统控制合成的文本。

semi-supervised learning for control

[103] 半监督的方法实现小数据量控制TTS风格
Semi-Supervised Generative Modeling for Controllable Speech Synthesis

motivation: 传统TTS风格控制的方法需要大量的数据控制比如情感、语速这样隐式的特征；通过加入supervised embedding，实现控制。
实验以语速和基频作为目标，语速给一个标准，然后计算；基频计算mean/var，然后高斯重采样；

林林宋

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Neural Text to Speech Synthesis

作者：tanxu会议：IJCAI 2020单位：微软文章目录acoustic modelAR & LSTM modelTacotron（location sensitive attention)DurIANNAR & CNN/Transformer modelDeepVoice 3TransformerTTSFastspeech2VITSvocoderLPCNetHiFiGanPWGAdvanced topics in TTSexpressiveSynthesize clean spe
复制链接

扫一扫