自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 语音合成论文详解 SR-TTS: a rhyme-based end-to-end speech synthesis system

这个层是在编码器和解码器之间,编码解码有着固定结构的前提下,这个模块我们就选在了Variance Adaptor中,当然duration先放前面还是必要的,时序当然首选考虑lstm,这也就是加入了prosody model的原因,同时方差适应层(Variance Adaptor)原有的预测模块都是普通的卷积层,很自然的想到加入注意力改善一下全局信息,创新的方法差不多就这些了。细节图和一些实验结果图,包括模型的对比与消融实验,都在论文链接中自取了,如果对代码感兴趣可发邮件交流讨论。

2024-06-12 21:23:47 368 1

原创 DiffGAN-TTS论文及代码运行笔记

目前在深度学习中生成模型最火的莫非就是扩散模型(Diffusion),其风头更是盖过了前几年最火的GAN,那么两者的结合则是很容易想到的一个创新点,在图像领域首先被提出,这不语音就拿来直接用了,扩散模型融合了GAN的思想,同时采用浅扩散机制加速,直接来看一下架构。5 以参数 --model naive --dataset LJSpeech 就可以开始训练了,这里model分为两种训练模式,在原始的batchsize下两种训练模式都遇到了,问题代码出在validation的阶段,一个简单的办法就是直接。

2023-04-29 17:13:55 416 2

原创 Fastdiff代码运行笔记

扩散模型在语音合成中的应用及代码运行笔记

2023-04-28 20:33:35 248 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除