DiffGAN-TTS论文及代码运行笔记

最新推荐文章于 2024-08-12 17:36:56 发布

theshycoder

最新推荐文章于 2024-08-12 17:36:56 发布

阅读量507

点赞数 10

文章标签：笔记深度学习生成对抗网络语音识别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jdjxjxjj/article/details/130442015

版权

文章探讨了扩散模型在当前深度学习中的热门地位，超越了以往的GAN。作者介绍了一种将扩散模型与GAN思想结合的方法，并应用于语音领域。在实现过程中，文章提到了使用LJSpeech数据集，以及在训练和预处理阶段可能遇到的错误和解决办法，如调整库版本、处理局部变量错误和调整batchsize等。经过约200k次训练，模型可得到良好结果。

摘要由CSDN通过智能技术生成

目前在深度学习中生成模型最火的莫非就是扩散模型（Diffusion），其风头更是盖过了前几年最火的GAN，那么两者的结合则是很容易想到的一个创新点，在图像领域首先被提出，这不语音就拿来直接用了，扩散模型融合了GAN的思想，同时采用浅扩散机制加速，直接来看一下架构。
在这里插入图片描述

论文：https://arxiv.org/pdf/2201.11972.pdf
代码：https://github.com/keonlee9420/DiffGAN-TTS

代码bug很多，踩坑记录

环境：torch 1.12 数据集：LJSpeech

1 首先在request安装包时，numba版本为0.56，librosa版本为0.80以上，否则会报错

2 在config中配置数据集所在路径

3 以参数–dataset LJSpeech运行 prepare_alien.py

4 以参数 --dataset LJSpeech 运行 preprocess.py 预处理文件，这里大概率会有个报错：

nboundLocalError: local variable ‘f0’ referenced before assignment，但有的环境没这个报错，

重新跑一遍prepare_alien，若还没用直接下载作者提供数据集的TextGrid就好了

5 以参数 --model naive --dataset LJSpeech 就可以开始训练了，这里model分为两种训练模式，

详细说明在代码的readme中有。大概200k次训练后就有一个好的结果了，在训练时同样会有个报错：

AttributeError: ‘GaussianDiffusion’ object has no attribute ‘cond’

在原始的batchsize下两种训练模式都遇到了，问题代码出在validation的阶段，一个简单的办法就是直接

跳过该阶段，但调小batchsize后竟然没遇到这个报错。

这里拿笔记本简单跑了一下结果：

在这里插入图片描述

在这里插入图片描述

关注

10
点赞
踩
5

收藏

觉得还不错? 一键收藏
2
评论
DiffGAN-TTS论文及代码运行笔记

目前在深度学习中生成模型最火的莫非就是扩散模型（Diffusion），其风头更是盖过了前几年最火的GAN，那么两者的结合则是很容易想到的一个创新点，在图像领域首先被提出，这不语音就拿来直接用了，扩散模型融合了GAN的思想，同时采用浅扩散机制加速，直接来看一下架构。5 以参数 --model naive --dataset LJSpeech 就可以开始训练了，这里model分为两种训练模式，在原始的batchsize下两种训练模式都遇到了，问题代码出在validation的阶段，一个简单的办法就是直接。
复制链接

扫一扫

theshycoder

CSDN认证博客专家 CSDN认证企业博客

码龄5年

南京医科大学

3: 原创

72万+: 周排名

17万+: 总排名

1521: 访问

: 等级

59: 积分

14: 粉丝

23: 获赞

4: 评论

14: 收藏

私信

关注

热门文章

最新评论

语音合成论文详解 SR-TTS: a rhyme-based end-to-end speech synthesis system
theshycoder: 需要源代码的可以私聊或者邮件交流哦
DiffGAN-TTS论文及代码运行笔记
iddaweitianlong: 非常感谢您的分享，这篇博客的内容非常有价值。讲到了几乎会遇到的全部bug，但是能不能请教您一下如何跳过val阶段，这将对我非常有帮助，非常感谢。
DiffGAN-TTS论文及代码运行笔记
CSDN-Ada助手: 非常感谢您分享DiffGAN-TTS论文及代码运行笔记，这篇博客的内容非常有价值。扩散模型和GAN的结合确实是一个很有创意的点子，而且在语音领域的应用也非常有前途。除了您提到的内容，还有一些相关的知识和技能可以扩展，比如语音信号处理、语音识别等方面的内容，这些都是非常重要的领域，可以进一步加强您对语音技术的理解和应用能力。希望您能够继续保持创作，并且分享更多有价值的内容。如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
Fastdiff代码运行笔记
CSDN-Ada助手: 恭喜您开始博客创作，阐述了关于Fastdiff代码的运行笔记。希望您能够继续分享您的经验和见解，让更多人受益。推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

大家在看

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。