ITS一键克隆,中英日三语,Plachtaa/VITS-fast-fine-tuning
VITS歌声转换,innnky/so-vits-svc,已删库,svc-develop-team/so-vits-svc 三方维护
VITS实时流式,34j/so-vits-svc-fork,可参考/待提升
VITS中文模型,优质,分块流式推理,PlayVoice/vits_chinese
vits_chinese实测展示
2021 年 6 月 11 日 VITS 论文和代码发布:
论文:Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech
代码:https://github.com/jaywalnut310/vits
机构:韩国科学院
会议:ICML 2021
作者其他论文:HiFiGAN、GlowTTS
2021 年 6 月 21 日 与 VITS 同架构论文:
论文:Glow-WaveGAN:Learning Speech Representations from GAN-based Variational Auto-Encoder For High Fidelity Flow-based Speech Synthesis
机构:西北工业大学,腾讯 AI 实验室
会议:INTERSPEECH 2021
2021 年 10 月 15 日 VITS 评估论文发布:
论文:ESPnet2-TTS Extending the Edge of TTS Research
代码:https://github.com/espnet/espnet/tree/master/espnet2/gan_tts/vits
机构:开源机构 ESPnet、卡梅隆大学、东京大学等
目的:对先进的语音合成系统进行评估,尤其是 VITS;ESPnet 提供的 152 个预训练模型(ASR+TTS)中有 48 为 VITS 语音合成模型。
2021 年 10 月 17 日 VITS 相关论文:
论文:VISinger: Variational Inference with Adversarial Learning for End-to-End Singing Voice Synthesis
机构:西北工业大学、网易伏羲 AI 实验室
目的:基于 VITS 实现的歌声合成系统
2021 年 12 月 4 日 VITS 相关论文:
论文:YourTTS:Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone
代码:https://edresson.github.io/YourTTS/
机构:开源机构 coqui-ai/TTS
目的:基于 VITS 实现跨语言语音合成和声音转换
2021 年 12 月 23 日 语音合成专题学术论坛:
机构:CCF 语音对话与听觉专委会
在会议中,微软亚洲研究院主管研究员谭旭博士,透露基于 VITS 实现的构建录音水平的文本到语音合成系统:DelightfulTTS 2 (Blizzard Challenge 2021/Ongoing),论文还未公开
2022年3月30日 VoiceMe:TTS中的个性化语音生成
论文:VoiceMe: Personalized voice generation in TTS
代码:https://github.com/polvanrijn/VoiceMe
机构:University of Cambridge etc
目的:使用来自最先进的说话人验证模型(SpeakerNet)的说话人嵌入来调节TTS模型。展示了用户可以创建与人脸、艺术肖像和卡通照片非常匹配的声音;使用wav2lip合成口型。
2022年3月30日 Nix-TTS:VITS模型的加速
论文:Nix-TTS: An Incredibly Lightweight End-to-End Text-to-Speech Model via Non End-to-End Distillation
代码:https://github.com/choiHkk/nix-tts
演示:https://github.com/rendchevi/nix-tts
机构:Amazon (UK) etc
目的:使用VITS作为教师模型,使用Nix-TTS作为学生模型,大约得到3倍的加速
2022年5月10日 NaturalSpeech:具有人类水平质量的端到端文本到语音合成
论文:NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level Quality
机构:Microsoft Research Asia & Microsoft Azure Speech Xu Tan
目的:通过几个关键设计来增强从文本到后文本的能力,降低从语音到后文本的复杂性,包括音素预训练、可微时长建模、双向前/后建模以及VAE中的记忆机制。
2022年6月2日 AdaVITS: Tiny VITS
论文:AdaVITS: Tiny VITS for Low Computing Resource Speaker Adaptation
机构:西工大&&腾讯
目的:用于低计算资源的说话人自适应;提出了一种基于iSTFT的波形构造解码器,以取代原VITS中资源消耗较大的基于上采样的解码器;引入了NanoFlow来共享流块之间的密度估计;将语音后验概率(PPG)用作语言特征;
2022年6月27日
论文:End-to-End Text-to-Speech Based on Latent Representation of Speaking Styles Using Spontaneous Dialogue
目的:语音上下文对话风格;两个阶段进行训练:第一阶段,训练变分自动编码器(VAE)-VITS,从语音中提取潜在说话风格表示的风格编码器与TTS联合训练。第二阶段,训练一个风格预测因子来预测从对话历史中综合出来的说话风格。以适合对话上下文的风格合成语音。
2022年6月27日 Sane-TTS
论文:SANE-TTS: Stable And Natural End-to-End Multilingual Text-to-Speech
机构:MINDsLab Inc,KAIST
目的:跨语言克隆;引入了说话人正则化丢失,在跨语言合成过程中提高了语音的自然度,并引入了域对抗训练。在持续时间预测器中用零向量代替说话人嵌入,稳定了跨语言推理。
2022年7月6日 Glow-WaveGAN 2
论文:Glow-WaveGAN 2: High-quality Zero-shot Text-to-speech Synthesis and Any-to-any Voice Conversion
演示:https://leiyi420.github.io/glow-wavegan2/
机构:腾讯
目的:零资源语音克隆,任意到任意的变声;使用通用预训练大模型WaveGAN,替换VAE和HIFIGAN;
2022年7月14日 CLONE
论文:Controllable and Lossless Non-Autoregressive End-to-End Text-to-Speech
演示:https://xcmyz.github.io/CLONE/
机构:字节、清华
目的:【VITS cannot control prosody.】一对多映射问题;缺乏真实声学特征的监督;归一化流的变分自动编码器来建模语音中的潜在韵律信息;双并行自动编码器,在训练期间引入对真实声学特征的监督;
2022年7月 nix-tts
名称:End-To-End SpeechSynthesis system with knowledge distillation
代码:https://github.com/choiHkk/nix-tts
目的:vits知识蒸馏,模型压缩
2022年9月 interspeech_2022
论文:TriniTTS: Pitch-controllable End-to-end TTS without External Aligner
机构:现代汽车、卡梅伦
目的:VITS架构中添加基音控制;去掉Flow,加速;
2022年10月6日 无标注训练
论文:Transfer Learning Framework for Low-Resource Text-to-Speech using a Large-Scale Unlabeled Speech Corpus
代码:https://github.com/hcy71o/TransferTTS
机构:三星等
目的:使用大规模无标注语料训练TTS;使用wav2vec2.0;
2022年10月28日 基于VITS架构的变声
论文:FreeVC: Towards High-Quality Text-Free One-Shot Voice Conversion
代码:https://github.com/olawod/freevc
目的:本文采用了端到端的VITS框架来实现高质量的波形重构,并提出了无需文本标注的干净内容信息提取策略。通过在WavLM特征中引入信息瓶颈,对内容信息进行分解,并提出基于谱图大小调整的数据增强方法,以提高提取内容信息的纯度。
2022年10月31日 VITS加速
论文:Lightweight and High-Fidelity End-to-End Text-to-Speech with Multi-Band Generation and Inverse Short-Time Fourier Transform
代码:https://github.com/MasayaKawamura/MB-iSTFT-VITS
机构: University of Tokyo, Japan,LINE Corp., Japan.
目的:比VITS快4.1倍,音质无影响;1)用简单的iSTFT部分地替换计算上最昂贵的卷积(2倍加速),2)PQMF的多频带生成来生成波形。
2022年10月31日 Period VITS情感TTS
论文:Period VITS: Variational Inference with Explicit Pitch Modeling for End-to-end Emotional Speech Synthesis
机构: University of Tokyo, Japan,LINE Corp., Japan.
目的:解码器中使用NSF,情感表达准确
2022年11月8日 VISinger 2
论文:VISinger 2: High-Fidelity End-to-End Singing Voice Synthesis Enhanced by Digital Signal Processing Synthesizer
机构:School of Computer Science, Northwestern Polytechnical University, Xi’an, China, DiDi Chuxing, Beijing, China
目的:NSF+VISinger
2023年1月 VITS onnx推理代码
代码:GitHub - rhasspy/larynx2: A fast, local neural text to speech system
机构:Rhasspy
目的:可导出onnx模型的VITS训练代码;C++推理代码;提供安装包,和预训练模型;支持平台 desktop Linux && Raspberry Pi 4;
2023年2月 VITS 变声 QuickVC
论文:QuickVC: Many-to-any Voice Conversion Using Inverse Short-time Fourier Transform for Faster Conversion
代码:https://github.com/quickvc/QuickVoice-Conversion
目的:SoftVC + VITS + iSTFT
2023年 wetts vits产品化
代码:GitHub - wenet-e2e/wetts: Production First and Production Ready End-to-End Text-to-Speech Toolkit
功能:前端处理,onnx,流式VITS?~
2023年02月27日 端到端音调可控TTS的无基频变音调推理
论文:PITS: Variational Pitch Inference without Fundamental Frequency for End-to-End Pitch-controllable TTS
机构:VITS团队
代码:https://github.com/anonymous-pits/pits
目的:PITS在VITS的基础上,结合了Yingram编码器、Yingram解码器和对抗式的移频合成训练来实现基音可控性。
2023年1月 语音克隆
论文:HierSpeech: Bridging the Gap between Text andSpeech by Hierarchical Variational Inference usingSelf-supervised Representations for Speech Synthesis
机构:Korea University
代码:https://github.com/CODEJIN/HierSpeech
目的:利用自我监督的语音表示作为额外的语言表示,以弥合文本和语音之间的信息差距。HierSpeech达到了+0.303 比较平均意见得分,音素错误率从9.16%降低到5.78%。可以利用自我监督的语音来适应新的说话人而没有标注。
2022年12月01日 zero-short语音克隆
论文:SNAC : Speaker-normalized Affine Coupling Layer in Flow-based Architecture for Zero-Shot Multi-Speaker Text-to-Speech
机构:Seoul National University & Samsung
代码:https://github.com/hcy71o/SNAC
主页:https://byoungjinchoi.github.io/snac/
目的:基于微软的说话人自适应器;在VITS的Flow层中嵌入adapter,实现zero-short语音克隆;我们通过引入一个说话人归一化仿射耦合(SNAC)层来改进先前的说话人条件化方法,该层允许以零拍方式利用基于归一化的条件化技术来合成看不见的说话人语音。
核心要点:
1,VITS 框架包含两个子系统:基于 VAE 的变声系统以及基于 Flow 的语音合成系统;VAE 擅长捕捉句子整体的韵律特征,而 Flow 擅长重建音频的细节特征;将两者整合,进行多任务训练,实现参数与优势共享。
2,VITS 的语音合成系统直接合成音频而不是 MEL 谱,实现真正意义的端到端语音合成,而非分为两个模型(声学模型&声码器)的序列到序列的合成;从而消除两个模型带来的 Gap。
3,传统两个模型的 TTS 系统,GAN 训练通常只应用与声码器;而,VITS 中的 GAN 训练是全局的、对每个模块都有效。