![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
语音合成
文章平均质量分 86
贾大帅
这个作者很懒,什么都没留下…
展开
-
windows下运行SyntaSpeech
SyntaSpeech 在windows运行的6点问题及解决方案原创 2022-06-08 16:21:07 · 279 阅读 · 4 评论 -
完全端到端语音合成JETS: Jointly Training FastSpeech2 and HiFi-GAN for End to End Text toSpeech 简单解读
abstract部分简单说了一下,一般的TTS系统都有声学部分和vocoder,通过中间特征mel谱连接,这个模型是e2e的,所以中间的声学特征不会mismatch,也不用finetune。而且移除了额外的alignment tool,实现在了espnet2上流程图如上,和fs2+hifigan没有什么区别不过在variance adaptor中,写的结构和开源的代码是一致的,也就是pitch和energy是音素级的,在fastspeech原始论文中是帧级的下面简介了一下fastspeech原创 2022-05-17 16:13:34 · 1370 阅读 · 2 评论 -
复现Your TTS使用coqui tts时计算SCL损失的梯度问题
Your TTS(https://arxiv.org/pdf/2112.02418v3.pdf)是基于VITS的多说话人多语言TTS,大部分的内容和VITS非常相近,大部分为实验部分。其中比较有意思的是增加了scl损失。损失也并不难理解,就是【生成出来的语音】和【原始语音】过一个speaker encoder出来的speaker embedding的余弦相似度。根据论文的说法,这个speaker encoder应该是pre-train出来的,在计算SCL损失的过程中,encoder的参数应该是固原创 2022-04-22 11:08:48 · 1170 阅读 · 3 评论 -
FastSpeech2论文中文翻译
FastSpeech2论文的翻译,翻译的挺差的,大概是那意思只翻译了摘要、模型部分和实验部分摘要:高级的TTS模型像fastspeech 能够显著更快地合成语音相较于之前的自回归模型,而且质量相当。FastSpeech模型的训练依赖于一个自回归的教师模型为了时长的预测(为了提供更多的信息作为输入)和知识蒸馏(为了简化数据的分布在输出里),这种知识蒸馏能够解决一对多的映射问题(也就是相同文字下的多语音变化)在tts中。然而,Fastspeech有几个缺点:1、教师-学生的蒸馏管道是复杂的。2、原创 2020-06-24 01:20:06 · 4972 阅读 · 0 评论