10秒生成一首歌?DiffRhythm+ComfyUI让你秒变音乐大师!

DiffRhythm 是一种基于潜扩散模型(Latent Diffusion Model)的AI音乐生成技术,以其快速生成完整歌曲(最长4分45秒,仅需不到10秒)而著称。ComfyUI 则是一个强大的开源节点式界面,最初用于图像生成,现通过插件扩展支持音乐生成。两者融合的最新成果是 ComfyUI_DiffRhythm,它将 DiffRhythm 的音乐生成能力集成到 ComfyUI 的工作流中,提供灵活的参数调整和可视化操作体验。

本指南将带你完成从安装到生成音乐的完整流程。


第一步:环境准备

  1. 安装 ComfyUI

    • 下载:从 GitHub(github.com/comfyanonymous/ComfyUI)克隆最新版本的 ComfyUI,或下载预编译版本(Windows/macOS/Linux 均支持)。
    • 依赖安装:进入 ComfyUI 目录,运行 pip install -r requirements.txt 安装基础依赖。确保安装 PyTorch(推荐 nightly 版以支持最新功能)。
    • 启动验证:运行 python main.py,浏览器应打开 localhost:8188,显示默认工作流界面。
  2. 硬件要求

    最低配置:NVIDIA GPU(至少 4GB VRAM),支持 CUDA;或 CPU(速度较慢)。
    推荐配置:8GB+ VRAM GPU,以支持完整歌曲生成和高保真输出。

图片

图片


第二步:安装 ComfyUI_DiffRhythm 插件

  1. 克隆插件

打开终端,进入 ComfyUI 的 custom_nodes 目录:

 bash

 ```
 cd ComfyUI/custom_nodesgit clone https://github.com/billwuhao/ComfyUI_DiffRhythm.git
 ```

- 进入插件目录并安装依赖: 

 bash

 ```
 cd ComfyUI_DiffRhythmpip install -r requirements.txt
 ```
  1. 下载模型

    • DiffRhythm-full

    • VAE 模型

    • 插件首次运行时会自动从 Hugging Face 下载所需模型(如 cfm_full_model.pt 和 vae_model.pt),并存储在 ComfyUI/models/TTS/DiffRhythm 文件夹中。

    • 如果需要手动下载,可访问以下链接:

    • 下载后,将 cfm_full_model.pt 和 comfig.json 放入 ComfyUI/models/TTS/DiffRhythm。

  2. 重启 ComfyUI

    • 关闭终端,重新运行 python main.py,确保插件加载成功。

图片 ------

第三步:创建音乐生成工作流

  1. 打开 ComfyUI 界面

    • 进入空白工作区。

      添加节点

    • Text Input:用于输入歌词或风格提示。

    • Audio Output:用于预览和保存生成的音频。

    • 点击右侧面板的“Add Node”按钮,在搜索框中输入 DiffRhythm,选择 DiffRhythm Full Song Generator 节点并添加到工作流。

    • 添加其他辅助节点(可选):

      连接节点 - 将 Text Input 的输出连接到 DiffRhythm Full Song Generator 的 prompt 输入。

    • 将 DiffRhythm Full Song Generator 的 audio 输出连接到 Audio Output。

  2. 配置参数

    lyrics:输入歌词(可选,如不填则随机生成)。

    • style_prompt:输入音乐风格(如“pop”、“jazz”)。

    • duration:设置歌曲长度(默认4分45秒,最大值)。

    • steps:推理步数(建议32步,平衡速度与质量)。

    • CFG Scale:无分类器引导尺度(默认7.5,可调至5-10)。

    • DiffRhythm Full Song Generator

    • Audio Output:设置保存路径(如 output/song.wav)。

图片


第四步:生成并预览音乐

  1. 运行工作流

    • 点击右上角的“Queue Prompt”按钮,启动生成过程。
    • 生成时间取决于硬件性能,通常在10秒内完成。
  2. 预览结果

  • 生成完成后,Audio Output 节点会显示音频预览控件。点击播放按钮即可试听。
  1. 调整与优化

    如果音乐不符合预期,可调整 style_prompt 或 CFG Scale,然后重新运行。

    增加 steps(如50步)可提升细节,但耗时稍长。

图片


第五步:高级用法(可选)

  1. 云端运行

    • 如果本地硬件不足,可使用 ComfyUI Cloud(comfy.icu)运行 DiffRhythm 工作流。
    • 上传工作流 JSON 文件,按 GPU 使用时间计费,无需本地安装。
  2. 多风格融合

    • 在 style_prompt 中输入多种风格(如“pop with jazz elements”),实验混合效果。
  3. 批量生成

    • 添加 Batch Prompt 节点,输入多组提示,生成多个音乐片段。

注意事项

  • 常见问题排查

    • 模型未加载:检查 ComfyUI/models/TTS/DiffRhythm 是否包含所需文件。
    • 内存不足:降低 duration 或使用云端服务。
    • 音频无声:确保提示有效,避免过于抽象的描述。
  • 性能优化

    • 使用 --fast 参数启动 ComfyUI,启用实验性加速。
    • 确保 GPU 驱动和 CUDA 版本与 PyTorch 兼容。
  • 社区资源

    • 访问 ComfyUI Discord 或 GitHub Issues 获取最新支持和更新。

      为了帮助大家更好地掌握 ComfyUI,我在去年花了几个月的时间,撰写并录制了一套ComfyUI的基础教程,共六篇。这套教程详细介绍了选择ComfyUI的理由、其优缺点、下载安装方法、模型与插件的安装、工作流节点和底层逻辑详解、遮罩修改重绘/Inpenting模块以及SDXL工作流手把手搭建。

由于篇幅原因,本文精选几个章节,详细版点击下方卡片免费领取
请添加图片描述

一、ComfyUI配置指南

  • 报错指南
  • 环境配置
  • 脚本更新
  • 后记

img

二、ComfyUI基础入门

  • 软件安装篇
  • 插件安装篇

img

三、 ComfyUI工作流节点/底层逻辑详解

  • ComfyUI 基础概念理解
  • Stable diffusion 工作原理
  • 工作流底层逻辑
  • 必备插件补全

img

四、ComfyUI节点技巧进阶/多模型串联

  • 节点进阶详解
  • 提词技巧精通
  • 多模型节点串联

img

五、ComfyUI遮罩修改重绘/Inpenting模块详解

  • 图像分辨率
  • 姿势

img

六、ComfyUI超实用SDXL工作流手把手搭建

  • Refined模型
  • SDXL风格化提示词
  • SDXL工作流搭建

img

由于篇幅原因,本文精选几个章节,详细版点击下方卡片免费领取

img
请添加图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值