举世无双语音合成系统 VITS 发展历程（2023.03.31 SNAC）

最新推荐文章于 2024-07-15 17:49:40 发布

c2a2o2

最新推荐文章于 2024-07-15 17:49:40 发布

阅读量1.5k

点赞数 1

文章标签：人工智能语音识别深度学习

原文链接：https://zhuanlan.zhihu.com/p/474601997

版权

ITS一键克隆，中英日三语，Plachtaa/VITS-fast-fine-tuning

VITS歌声转换，innnky/so-vits-svc，已删库，svc-develop-team/so-vits-svc 三方维护

VITS实时流式，34j/so-vits-svc-fork，可参考/待提升

VITS中文模型，优质，分块流式推理，PlayVoice/vits_chinese

vits_chinese实测展示

2021 年 6 月 11 日 VITS 论文和代码发布：

论文：Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech

代码：https://github.com/jaywalnut310/vits

机构：韩国科学院

会议：ICML 2021

作者其他论文：HiFiGAN、GlowTTS

2021 年 6 月 21 日与 VITS 同架构论文：

论文：Glow-WaveGAN：Learning Speech Representations from GAN-based Variational Auto-Encoder For High Fidelity Flow-based Speech Synthesis

机构：西北工业大学，腾讯 AI 实验室

会议：INTERSPEECH 2021

2021 年 10 月 15 日 VITS 评估论文发布：

论文：ESPnet2-TTS Extending the Edge of TTS Research

代码：https://github.com/espnet/espnet/tree/master/espnet2/gan_tts/vits

机构：开源机构 ESPnet、卡梅隆大学、东京大学等

目的：对先进的语音合成系统进行评估，尤其是 VITS；ESPnet 提供的 152 个预训练模型（ASR+TTS）中有 48 为 VITS 语音合成模型。

2021 年 10 月 17 日 VITS 相关论文：

论文：VISinger: Variational Inference with Adversarial Learning for End-to-End Singing Voice Synthesis

机构：西北工业大学、网易伏羲 AI 实验室

目的：基于 VITS 实现的歌声合成系统

2021 年 12 月 4 日 VITS 相关论文：

论文：YourTTS：Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone

代码：https://edresson.github.io/YourTTS/

机构：开源机构 coqui-ai/TTS

目的：基于 VITS 实现跨语言语音合成和声音转换

2021 年 12 月 23 日语音合成专题学术论坛：

机构：CCF 语音对话与听觉专委会

在会议中，微软亚洲研究院主管研究员谭旭博士，透露基于 VITS 实现的构建录音水平的文本到语音合成系统：DelightfulTTS 2 (Blizzard Challenge 2021/Ongoing)，论文还未公开

2022年3月30日 VoiceMe：TTS中的个性化语音生成

论文：VoiceMe: Personalized voice generation in TTS

代码：https://github.com/polvanrijn/VoiceMe

机构：University of Cambridge etc

目的：使用来自最先进的说话人验证模型（SpeakerNet）的说话人嵌入来调节TTS模型。展示了用户可以创建与人脸、艺术肖像和卡通照片非常匹配的声音；使用wav2lip合成口型。

2022年3月30日 Nix-TTS：VITS模型的加速

论文：Nix-TTS: An Incredibly Lightweight End-to-End Text-to-Speech Model via Non End-to-End Distillation

代码：https://github.com/choiHkk/nix-tts

演示：https://github.com/rendchevi/nix-tts

机构：Amazon (UK) etc

目的：使用VITS作为教师模型，使用Nix-TTS作为学生模型，大约得到3倍的加速

2022年5月10日 NaturalSpeech：具有人类水平质量的端到端文本到语音合成

论文：NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level Quality

机构：Microsoft Research Asia & Microsoft Azure Speech Xu Tan

目的：通过几个关键设计来增强从文本到后文本的能力，降低从语音到后文本的复杂性，包括音素预训练、可微时长建模、双向前/后建模以及VAE中的记忆机制。

2022年6月2日 AdaVITS: Tiny VITS

论文：AdaVITS: Tiny VITS for Low Computing Resource Speaker Adaptation

机构：西工大&&腾讯

目的：用于低计算资源的说话人自适应；提出了一种基于iSTFT的波形构造解码器，以取代原VITS中资源消耗较大的基于上采样的解码器；引入了NanoFlow来共享流块之间的密度估计；将语音后验概率（PPG）用作语言特征；

2022年6月27日

论文：End-to-End Text-to-Speech Based on Latent Representation of Speaking Styles Using Spontaneous Dialogue

目的：语音上下文对话风格；两个阶段进行训练：第一阶段，训练变分自动编码器（VAE）-VITS，从语音中提取潜在说话风格表示的风格编码器与TTS联合训练。第二阶段，训练一个风格预测因子来预测从对话历史中综合出来的说话风格。以适合对话上下文的风格合成语音。

2022年6月27日 Sane-TTS

论文：SANE-TTS: Stable And Natural End-to-End Multilingual Text-to-Speech

机构：MINDsLab Inc，KAIST

目的：跨语言克隆；引入了说话人正则化丢失，在跨语言合成过程中提高了语音的自然度，并引入了域对抗训练。在持续时间预测器中用零向量代替说话人嵌入，稳定了跨语言推理。

2022年7月6日 Glow-WaveGAN 2

论文：Glow-WaveGAN 2: High-quality Zero-shot Text-to-speech Synthesis and Any-to-any Voice Conversion

演示：https://leiyi420.github.io/glow-wavegan2/

机构：腾讯

目的：零资源语音克隆，任意到任意的变声；使用通用预训练大模型WaveGAN，替换VAE和HIFIGAN；

2022年7月14日 CLONE

论文：Controllable and Lossless Non-Autoregressive End-to-End Text-to-Speech

演示：https://xcmyz.github.io/CLONE/

机构：字节、清华

目的：【VITS cannot control prosody.】一对多映射问题；缺乏真实声学特征的监督；归一化流的变分自动编码器来建模语音中的潜在韵律信息；双并行自动编码器，在训练期间引入对真实声学特征的监督；

2022年7月 nix-tts

名称：End-To-End SpeechSynthesis system with knowledge distillation

代码：https://github.com/choiHkk/nix-tts

目的：vits知识蒸馏，模型压缩

2022年9月 interspeech_2022

论文：TriniTTS: Pitch-controllable End-to-end TTS without External Aligner

机构：现代汽车、卡梅伦

目的：VITS架构中添加基音控制；去掉Flow，加速；

2022年10月6日无标注训练

论文：Transfer Learning Framework for Low-Resource Text-to-Speech using a Large-Scale Unlabeled Speech Corpus

代码：https://github.com/hcy71o/TransferTTS

机构：三星等

目的：使用大规模无标注语料训练TTS；使用wav2vec2.0;

2022年10月28日基于VITS架构的变声

论文：FreeVC: Towards High-Quality Text-Free One-Shot Voice Conversion

代码：https://github.com/olawod/freevc

目的：本文采用了端到端的VITS框架来实现高质量的波形重构，并提出了无需文本标注的干净内容信息提取策略。通过在WavLM特征中引入信息瓶颈，对内容信息进行分解，并提出基于谱图大小调整的数据增强方法，以提高提取内容信息的纯度。

2022年10月31日 VITS加速

论文：Lightweight and High-Fidelity End-to-End Text-to-Speech with Multi-Band Generation and Inverse Short-Time Fourier Transform

代码：https://github.com/MasayaKawamura/MB-iSTFT-VITS

机构： University of Tokyo, Japan,LINE Corp., Japan.

目的：比VITS快4.1倍，音质无影响；1）用简单的iSTFT部分地替换计算上最昂贵的卷积（2倍加速），2）PQMF的多频带生成来生成波形。

2022年10月31日 Period VITS情感TTS

论文：Period VITS: Variational Inference with Explicit Pitch Modeling for End-to-end Emotional Speech Synthesis

机构： University of Tokyo, Japan,LINE Corp., Japan.

目的：解码器中使用NSF，情感表达准确

2022年11月8日 VISinger 2

论文：VISinger 2: High-Fidelity End-to-End Singing Voice Synthesis Enhanced by Digital Signal Processing Synthesizer

机构：School of Computer Science, Northwestern Polytechnical University, Xi’an, China, DiDi Chuxing, Beijing, China

目的：NSF+VISinger

2023年1月 VITS onnx推理代码

代码：GitHub - rhasspy/larynx2: A fast, local neural text to speech system

机构：Rhasspy

目的：可导出onnx模型的VITS训练代码；C++推理代码；提供安装包，和预训练模型；支持平台 desktop Linux && Raspberry Pi 4；

2023年2月 VITS 变声 QuickVC

论文：QuickVC: Many-to-any Voice Conversion Using Inverse Short-time Fourier Transform for Faster Conversion

代码：https://github.com/quickvc/QuickVoice-Conversion

目的：SoftVC + VITS + iSTFT

2023年 wetts vits产品化

代码：GitHub - wenet-e2e/wetts: Production First and Production Ready End-to-End Text-to-Speech Toolkit

功能：前端处理，onnx，流式VITS？~

2023年02月27日端到端音调可控TTS的无基频变音调推理

论文：PITS: Variational Pitch Inference without Fundamental Frequency for End-to-End Pitch-controllable TTS

机构：VITS团队

代码：https://github.com/anonymous-pits/pits

目的：PITS在VITS的基础上，结合了Yingram编码器、Yingram解码器和对抗式的移频合成训练来实现基音可控性。

2023年1月语音克隆

论文：HierSpeech: Bridging the Gap between Text andSpeech by Hierarchical Variational Inference usingSelf-supervised Representations for Speech Synthesis

机构：Korea University

代码：https://github.com/CODEJIN/HierSpeech

目的：利用自我监督的语音表示作为额外的语言表示，以弥合文本和语音之间的信息差距。HierSpeech达到了+0.303 比较平均意见得分，音素错误率从9.16%降低到5.78%。可以利用自我监督的语音来适应新的说话人而没有标注。

2022年12月01日 zero-short语音克隆

论文：SNAC : Speaker-normalized Affine Coupling Layer in Flow-based Architecture for Zero-Shot Multi-Speaker Text-to-Speech

机构：Seoul National University & Samsung

代码：https://github.com/hcy71o/SNAC

主页：https://byoungjinchoi.github.io/snac/

目的：基于微软的说话人自适应器；在VITS的Flow层中嵌入adapter，实现zero-short语音克隆；我们通过引入一个说话人归一化仿射耦合（SNAC）层来改进先前的说话人条件化方法，该层允许以零拍方式利用基于归一化的条件化技术来合成看不见的说话人语音。

核心要点：

1，VITS 框架包含两个子系统：基于 VAE 的变声系统以及基于 Flow 的语音合成系统；VAE 擅长捕捉句子整体的韵律特征，而 Flow 擅长重建音频的细节特征；将两者整合，进行多任务训练，实现参数与优势共享。

2，VITS 的语音合成系统直接合成音频而不是 MEL 谱，实现真正意义的端到端语音合成，而非分为两个模型（声学模型&声码器）的序列到序列的合成；从而消除两个模型带来的 Gap。

3，传统两个模型的 TTS 系统，GAN 训练通常只应用与声码器；而，VITS 中的 GAN 训练是全局的、对每个模块都有效。

c2a2o2

关注

1
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫