自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

jdjxjxjj的博客

原创语音合成论文详解 SR-TTS: a rhyme-based end-to-end speech synthesis system

这个层是在编码器和解码器之间，编码解码有着固定结构的前提下，这个模块我们就选在了Variance Adaptor中，当然duration先放前面还是必要的，时序当然首选考虑lstm，这也就是加入了prosody model的原因，同时方差适应层（Variance Adaptor）原有的预测模块都是普通的卷积层，很自然的想到加入注意力改善一下全局信息，创新的方法差不多就这些了。细节图和一些实验结果图，包括模型的对比与消融实验，都在论文链接中自取了，如果对代码感兴趣可发邮件交流讨论。

2024-06-12 21:23:47 368 1

原创 DiffGAN-TTS论文及代码运行笔记

目前在深度学习中生成模型最火的莫非就是扩散模型（Diffusion），其风头更是盖过了前几年最火的GAN，那么两者的结合则是很容易想到的一个创新点，在图像领域首先被提出，这不语音就拿来直接用了，扩散模型融合了GAN的思想，同时采用浅扩散机制加速，直接来看一下架构。5 以参数 --model naive --dataset LJSpeech 就可以开始训练了，这里model分为两种训练模式，在原始的batchsize下两种训练模式都遇到了，问题代码出在validation的阶段，一个简单的办法就是直接。

2023-04-29 17:13:55 416 2

原创 Fastdiff代码运行笔记

扩散模型在语音合成中的应用及代码运行笔记

2023-04-28 20:33:35 248 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

theshycoder

CSDN认证博客专家 CSDN认证企业博客

码龄5年

南京医科大学

IP 属地：江苏省

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

3: 原创

30万+: 周排名

17万+: 总排名

1031: 访问

: 等级

47: 积分

8: 粉丝

11: 获赞

4: 评论

9: 收藏

私信

关注

热门文章

最新评论

语音合成论文详解 SR-TTS: a rhyme-based end-to-end speech synthesis system
theshycoder: 需要源代码的可以私聊或者邮件交流哦
DiffGAN-TTS论文及代码运行笔记
iddaweitianlong: 非常感谢您的分享，这篇博客的内容非常有价值。讲到了几乎会遇到的全部bug，但是能不能请教您一下如何跳过val阶段，这将对我非常有帮助，非常感谢。
DiffGAN-TTS论文及代码运行笔记
CSDN-Ada助手: 非常感谢您分享DiffGAN-TTS论文及代码运行笔记，这篇博客的内容非常有价值。扩散模型和GAN的结合确实是一个很有创意的点子，而且在语音领域的应用也非常有前途。除了您提到的内容，还有一些相关的知识和技能可以扩展，比如语音信号处理、语音识别等方面的内容，这些都是非常重要的领域，可以进一步加强您对语音技术的理解和应用能力。希望您能够继续保持创作，并且分享更多有价值的内容。如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
Fastdiff代码运行笔记
CSDN-Ada助手: 恭喜您开始博客创作，阐述了关于Fastdiff代码的运行笔记。希望您能够继续分享您的经验和见解，让更多人受益。推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

最新文章

提示

确定要删除当前文章？

取消删除