VoiceLDM：环境上下文驱动的文本到语音生成

本文链接：https://blog.csdn.net/jxjdhdnd/article/details/143653268

🏡作者主页：点击！

🤖编程探索专栏：点击！

⏰️创作时间：2024年11月9日23点20分

本文提出了 VoiceLDM，这是一种旨在生成准确遵循两种不同自然语言文本提示的音频的模型：描述提示和内容提示。前者提供有关音频整体环境背景的信息，而后者则传达语言内容。为了实现这一目标，我们采用基于潜在扩散模型的文本到音频（TTA）模型，并扩展其功能以纳入额外的内容提示作为条件输入。通过利用预训练对比语言音频预训练 (CLAP) 和 Whisper，VoiceLDM 可以在大量真实世界音频上进行训练，而无需手动注释或转录。此外，我们采用双分类器免费引导来进一步增强 VoiceLDM 的可控性。实验结果表明，VoiceLDM 能够生成与两种输入条件均吻合的可信音频，甚至超过了 AudioCaps 测试集上真实音频的语音清晰度。此外，我们还探索了 VoiceLDM 的文本转语音 (TTS) 和零样本文本转音频功能，并表明它取得了有竞争力的结果。

演示效果

这里可以看到演示效果（暂时只支持英文，不过试了一下拼音，效果尚可）

1、描述一个环境，比如：She is talking in a park！
2、写下一段内容，比如：Good morning! How are you feeling today?
3、程序就可以输出一段环境语音，让你一下子就能感受到：早晨鸟语花香的公园里，她在跟人家亲切的打招呼的场景语音

核心逻辑

详见github原文描述

环境声（文本转音频） + 说话声（文字转语音） = 场景合成声（环境控制的文本转语音）

使用方式

生成带有描述提示和内容提示的音频

python generate.py --desc_prompt "She is talking in a park." --cont_prompt "Good morning! How are you feeling today?"

上述程序初次调用会下载对应模型，有些资源可能需要魔法：

涉及的模型（运行程序时会自动下载）:

成功后会生成语音在outputs文件夹下：

成功的路上没有捷径，只有不断的努力与坚持。如果你和我一样，坚信努力会带来回报，请关注我，点个赞，一起迎接更加美好的明天！你的支持是我继续前行的动力！"

"每一次创作都是一次学习的过程，文章中若有不足之处，还请大家多多包容。你的关注和点赞是对我最大的支持，也欢迎大家提出宝贵的意见和建议，让我不断进步。"

神秘泣男子