- 博客(3)
- 收藏
- 关注
原创 语音合成论文详解 SR-TTS: a rhyme-based end-to-end speech synthesis system
这个层是在编码器和解码器之间,编码解码有着固定结构的前提下,这个模块我们就选在了Variance Adaptor中,当然duration先放前面还是必要的,时序当然首选考虑lstm,这也就是加入了prosody model的原因,同时方差适应层(Variance Adaptor)原有的预测模块都是普通的卷积层,很自然的想到加入注意力改善一下全局信息,创新的方法差不多就这些了。细节图和一些实验结果图,包括模型的对比与消融实验,都在论文链接中自取了,如果对代码感兴趣可发邮件交流讨论。
2024-06-12 21:23:47
368
1
原创 DiffGAN-TTS论文及代码运行笔记
目前在深度学习中生成模型最火的莫非就是扩散模型(Diffusion),其风头更是盖过了前几年最火的GAN,那么两者的结合则是很容易想到的一个创新点,在图像领域首先被提出,这不语音就拿来直接用了,扩散模型融合了GAN的思想,同时采用浅扩散机制加速,直接来看一下架构。5 以参数 --model naive --dataset LJSpeech 就可以开始训练了,这里model分为两种训练模式,在原始的batchsize下两种训练模式都遇到了,问题代码出在validation的阶段,一个简单的办法就是直接。
2023-04-29 17:13:55
416
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人