10秒生成一首歌？DiffRhythm+ComfyUI让你秒变音乐大师！-CSDN博客

本文链接：https://blog.csdn.net/m0_64365896/article/details/146472053

DiffRhythm 是一种基于潜扩散模型（Latent Diffusion Model）的AI音乐生成技术，以其快速生成完整歌曲（最长4分45秒，仅需不到10秒）而著称。ComfyUI 则是一个强大的开源节点式界面，最初用于图像生成，现通过插件扩展支持音乐生成。两者融合的最新成果是 ComfyUI_DiffRhythm，它将 DiffRhythm 的音乐生成能力集成到 ComfyUI 的工作流中，提供灵活的参数调整和可视化操作体验。

本指南将带你完成从安装到生成音乐的完整流程。

第一步：环境准备

安装 ComfyUI
- 下载：从 GitHub（github.com/comfyanonymous/ComfyUI）克隆最新版本的 ComfyUI，或下载预编译版本（Windows/macOS/Linux 均支持）。
- 依赖安装：进入 ComfyUI 目录，运行 pip install -r requirements.txt 安装基础依赖。确保安装 PyTorch（推荐 nightly 版以支持最新功能）。
- 启动验证：运行 python main.py，浏览器应打开 localhost:8188，显示默认工作流界面。
硬件要求

最低配置：NVIDIA GPU（至少 4GB VRAM），支持 CUDA；或 CPU（速度较慢）。
推荐配置：8GB+ VRAM GPU，以支持完整歌曲生成和高保真输出。

第二步：安装 ComfyUI_DiffRhythm 插件

克隆插件

打开终端，进入 ComfyUI 的 custom_nodes 目录：

 bash

 ```
 cd ComfyUI/custom_nodesgit clone https://github.com/billwuhao/ComfyUI_DiffRhythm.git
 ```

- 进入插件目录并安装依赖： 

 bash

 ```
 cd ComfyUI_DiffRhythmpip install -r requirements.txt
 ```

下载模型
- DiffRhythm-full
- VAE 模型
- 插件首次运行时会自动从 Hugging Face 下载所需模型（如 cfm_full_model.pt 和 vae_model.pt），并存储在 ComfyUI/models/TTS/DiffRhythm 文件夹中。
- 如果需要手动下载，可访问以下链接：
- 下载后，将 cfm_full_model.pt 和 comfig.json 放入 ComfyUI/models/TTS/DiffRhythm。
重启 ComfyUI
- 关闭终端，重新运行 python main.py，确保插件加载成功。

------

第三步：创建音乐生成工作流

打开 ComfyUI 界面
- 进入空白工作区。
  
  添加节点
- Text Input：用于输入歌词或风格提示。
- Audio Output：用于预览和保存生成的音频。
- 点击右侧面板的“Add Node”按钮，在搜索框中输入 DiffRhythm，选择 DiffRhythm Full Song Generator 节点并添加到工作流。
- 添加其他辅助节点（可选）：
  
  连接节点 - 将 Text Input 的输出连接到 DiffRhythm Full Song Generator 的 prompt 输入。
- 将 DiffRhythm Full Song Generator 的 audio 输出连接到 Audio Output。
配置参数

lyrics：输入歌词（可选，如不填则随机生成）。
- style_prompt：输入音乐风格（如“pop”、“jazz”）。
- duration：设置歌曲长度（默认4分45秒，最大值）。
- steps：推理步数（建议32步，平衡速度与质量）。
- CFG Scale：无分类器引导尺度（默认7.5，可调至5-10）。
- DiffRhythm Full Song Generator：
- Audio Output：设置保存路径（如 output/song.wav）。

第四步：生成并预览音乐

运行工作流
- 点击右上角的“Queue Prompt”按钮，启动生成过程。
- 生成时间取决于硬件性能，通常在10秒内完成。
预览结果

生成完成后，Audio Output 节点会显示音频预览控件。点击播放按钮即可试听。

调整与优化

如果音乐不符合预期，可调整 style_prompt 或 CFG Scale，然后重新运行。

增加 steps（如50步）可提升细节，但耗时稍长。

第五步：高级用法（可选）

云端运行
- 如果本地硬件不足，可使用 ComfyUI Cloud（comfy.icu）运行 DiffRhythm 工作流。
- 上传工作流 JSON 文件，按 GPU 使用时间计费，无需本地安装。
多风格融合
- 在 style_prompt 中输入多种风格（如“pop with jazz elements”），实验混合效果。
批量生成
- 添加 Batch Prompt 节点，输入多组提示，生成多个音乐片段。

注意事项

常见问题排查
- 模型未加载：检查 ComfyUI/models/TTS/DiffRhythm 是否包含所需文件。
- 内存不足：降低 duration 或使用云端服务。
- 音频无声：确保提示有效，避免过于抽象的描述。
性能优化
- 使用 --fast 参数启动 ComfyUI，启用实验性加速。
- 确保 GPU 驱动和 CUDA 版本与 PyTorch 兼容。
社区资源
- 访问 ComfyUI Discord 或 GitHub Issues 获取最新支持和更新。
  
  为了帮助大家更好地掌握 ComfyUI，我在去年花了几个月的时间，撰写并录制了一套ComfyUI的基础教程，共六篇。这套教程详细介绍了选择ComfyUI的理由、其优缺点、下载安装方法、模型与插件的安装、工作流节点和底层逻辑详解、遮罩修改重绘/Inpenting模块以及SDXL工作流手把手搭建。